2023-01-27 스터디 블로그 3!!
DACON 서울시 따릉이 대여량 예측 경진대회
주어진 데이터를 바탕으로 따릉이 대여량을 예측해보고자 한다.
주어진 데이터 : train.csv와 test.csv
상관계수를 시각화해 보니,
count와 관련된 상관관계 분석
- hour변수가 가장 큰 양의 상관관계 보임
- hour_bef_temperature (빌린날의 온도) 역시 강한 상관관계를 보임
- hour_bef_humidity (습도) 반대로 음의 상관관계를 나타냄
결측치들은
이 함수를 이용하여 평균값들로 다 채워주었다.
이렇게 다 채워진 데이터들을 정규분포로 바꿔준다.
이 데이터를 교차검증을 이용하여 모델링해주고자했다.
이렇게 해 제출을 해보니 터무니없는 결과가 나왔다.
모델링에 문제가 있다고 판단하여 다음시간까지
저번 타이타닉 때 사용했던 모델들인 kNN, DecisionTree, Random Forest, Naive Bayes, SVC.. 등 다양한 모델들로 다시 시도해보고자 한다.
피드백
- 처음 교차검증 결과가 count 값이 상당히 크게 나왔는데 시각화를 3제곱하다가 결과값도 잘못 3제곱한 코드를 발견해 고치라는 피드백을 받아 더욱 정확한 결과가 나올 수 있었다.
- 좀 더 다양한 모델링을 구축하여 더 정확한 예측값이 나오는 경우를 찾아보라는 피드백을 받았다.
2023
2 minute read
CH 12. 확률 과정
2 minute read
CH 11. 수학용 도구
4 minute read
CH 9. 입출력 작업
2 minute read
CH 8. 금융 시계열
2 minute read
OCR 손글씨 인식 프로젝트
less than 1 minute read
DACON 서울시 따릉이 대여량 예측 경진대회 - 점수 49.77795로 마무리
less than 1 minute read
DACON 서울시 따릉이 대여량 예측 경진대회
less than 1 minute read
kaggle Titanic - 77% 정확도로 마무리
less than 1 minute read
kaggle Titanic
less than 1 minute read
오늘 처음 블로그를 만들었어요
Back to top ↑