2023-05-23 금융분석데이터 스터디 6주차 !!
CH 12. 확률 과정
kaggle 대회 중 Titanic 생존자 예측을 해보기로 한다.
먼저, kaggle에서 csv를 다운 받아주고 csv의 feature별로 생존/사망을 분류해본다.
NAME을 이용하여 Title이라는 새로운 feature을 만들어 준다.
SEX와 AGE Embarked를 숫자로 다 바꾸어준다. AGE의 경우 결손치가 있기에 title 별로 중앙값을 구해 빈 곳들을 채워준다.
FARE 역시 결손치가 있기에 Pclass(등급)별로 중앙값을 구해 빈 곳들을 채워준다.
CABIN도 결손치가 있다. 빈 곳들을 채워주기 위해 A-F까지의 좌석들을 등급별로 나눠 중앙값을 구해 빈 곳들을 채워준다. 이때, A-F를 숫자로 바꿔 저장해준다.
FAMILYSIZE는 SIBSP와 PARCH를 합쳐 숫자로 나타내준다. 그런 후, 필요없는 feature들을 drop 해준다. 그럼 다음과 같이 table이 만들어진다.
데이터는 어느 정도 처리가 되었고 모델링을 해보자 나는 총 5개의 방법을 사용했다.
그 중 Radnom Forest가 가장 정확도가 높은 걸로 나와 이를 이용해 예측하였다.
피드백 조원들로 부터
CH 12. 확률 과정
CH 11. 수학용 도구
CH 9. 입출력 작업
CH 8. 금융 시계열
OCR 손글씨 인식 프로젝트
DACON 서울시 따릉이 대여량 예측 경진대회 - 점수 49.77795로 마무리
DACON 서울시 따릉이 대여량 예측 경진대회
kaggle Titanic - 77% 정확도로 마무리
kaggle Titanic
오늘 처음 블로그를 만들었어요