2023-02-03 스터디 블로그 4!!

DACON 서울시 따릉이 대여량 예측 경진대회 - 점수 49.77795로 마무리

지난 시간에 구현한 코드를 수정하여 따릉이 대여량 에측력을 높이고자한다.

지난 시간에 교차검증을 사용했지만 좋지 못한 점수가 나왔다.

그리하여, 전 프로젝트(타이타닉)에서 사용한 모델을 사용하여 다시 학습시켰다.

그 결과, Decision Tree가 가장 높은 예측력을 나타냈고

제출해서 점수를 내어 보니

Decision Tree가 가장 낮은 점수(높은 예측력)을 가짐을 확인할 수 있었다.

하지만, 내가 원했던 점수까지 미치지 못해 구글링을 했다.

그리하여 RandomForestRegressor과 DecisionTreeClassifier, DecisionTreeRegressor [랜덤포레스트 회귀, 의사결정트]모델들을 새로 알게 되었고 이들로 학습시켜 보았다.

지난시간 상관관계로 hour, hour_bef_temperature, hour_bef_windspeed가 가장 연관이 높다는 것을 알게 되었기에 이 features만 사용한다.

이들도 제출해서 점수를 내어 보니

해당 데이터에 가장 적합한 hyparameter 옵션을 찾는 과정 => tuning에서 n_estimators : 의사결정나무의 수가 200일때 더 예측력이 높음을 알 수 있었다.

피드백

less than 1 minute read

오늘 처음 블로그를 만들었어요