2023-01-27 스터디 블로그 3!!

DACON 서울시 따릉이 대여량 예측 경진대회

주어진 데이터를 바탕으로 따릉이 대여량을 예측해보고자 한다.

주어진 데이터 : train.csv와 test.csv

상관계수를 시각화해 보니,

image

count와 관련된 상관관계 분석

  • hour변수가 가장 큰 양의 상관관계 보임
  • hour_bef_temperature (빌린날의 온도) 역시 강한 상관관계를 보임
  • hour_bef_humidity (습도) 반대로 음의 상관관계를 나타냄

결측치들은

image

이 함수를 이용하여 평균값들로 다 채워주었다.

이렇게 다 채워진 데이터들을 정규분포로 바꿔준다. image

이 데이터를 교차검증을 이용하여 모델링해주고자했다. image image

이렇게 해 제출을 해보니 터무니없는 결과가 나왔다.

image

모델링에 문제가 있다고 판단하여 다음시간까지

저번 타이타닉 때 사용했던 모델들인 kNN, DecisionTree, Random Forest, Naive Bayes, SVC.. 등 다양한 모델들로 다시 시도해보고자 한다.

피드백

  • 처음 교차검증 결과가 count 값이 상당히 크게 나왔는데 시각화를 3제곱하다가 결과값도 잘못 3제곱한 코드를 발견해 고치라는 피드백을 받아 더욱 정확한 결과가 나올 수 있었다.
  • 좀 더 다양한 모델링을 구축하여 더 정확한 예측값이 나오는 경우를 찾아보라는 피드백을 받았다.

2023

Back to top ↑