2023-01-13 스터디 블로그 1!!

kaggle Titanic

kaggle 대회 중 Titanic 생존자 예측을 해보기로 한다.

먼저, kaggle에서 csv를 다운 받아주고 csv의 feature별로 생존/사망을 분류해본다. image image

NAME을 이용하여 Title이라는 새로운 feature을 만들어 준다. image

SEX와 AGE Embarked를 숫자로 다 바꾸어준다. AGE의 경우 결손치가 있기에 title 별로 중앙값을 구해 빈 곳들을 채워준다. image

FARE 역시 결손치가 있기에 Pclass(등급)별로 중앙값을 구해 빈 곳들을 채워준다. image

CABIN도 결손치가 있다. 빈 곳들을 채워주기 위해 A-F까지의 좌석들을 등급별로 나눠 중앙값을 구해 빈 곳들을 채워준다. 이때, A-F를 숫자로 바꿔 저장해준다. image

FAMILYSIZE는 SIBSP와 PARCH를 합쳐 숫자로 나타내준다. 그런 후, 필요없는 feature들을 drop 해준다. image 그럼 다음과 같이 table이 만들어진다. image

데이터는 어느 정도 처리가 되었고 모델링을 해보자 나는 총 5개의 방법을 사용했다. image image image

그 중 Radnom Forest가 가장 정확도가 높은 걸로 나와 이를 이용해 예측하였다. image

image

피드백 조원들로 부터

  • train set도 함께 돌리면 정확도가 더 좋아질 것 같다
  • random forest 과대 적합 가능성이 있으므로 모델 구현 코드 부분을 수정하여 다시 진행해보자 라는 피드백을 받았습니다.

2023

Back to top ↑