2023-02-03 스터디 블로그 4!!

DACON 서울시 따릉이 대여량 예측 경진대회 - 점수 49.77795로 마무리

지난 시간에 구현한 코드를 수정하여 따릉이 대여량 에측력을 높이고자한다.

  • 지난 시간에 교차검증을 사용했지만 좋지 못한 점수가 나왔다.

    그리하여, 전 프로젝트(타이타닉)에서 사용한 모델을 사용하여 다시 학습시켰다.

    image image image

그 결과, Decision Tree가 가장 높은 예측력을 나타냈고 image 제출해서 점수를 내어 보니

Decision Tree가 가장 낮은 점수(높은 예측력)을 가짐을 확인할 수 있었다.

하지만, 내가 원했던 점수까지 미치지 못해 구글링을 했다.

그리하여 RandomForestRegressor과 DecisionTreeClassifier, DecisionTreeRegressor [랜덤포레스트 회귀, 의사결정트]모델들을 새로 알게 되었고 이들로 학습시켜 보았다.

  • 지난시간 상관관계로 hour, hour_bef_temperature, hour_bef_windspeed가 가장 연관이 높다는 것을 알게 되었기에 이 features만 사용한다.

image image image 이들도 제출해서 점수를 내어 보니 image

model200이 가장 낮은 점수(높은 예측력)을 나타냈다.

해당 데이터에 가장 적합한 hyparameter 옵션을 찾는 과정 => tuning에서 n_estimators : 의사결정나무의 수가 200일때 더 예측력이 높음을 알 수 있었다.

피드백

  • 다양한 모델들을 시도하면서 예측력을 높이는 좋은 시도를 한 것 같으며 적합한 hyparameter을 찾는 것에 집중을 해도 좋을 것 같다는 피드백을 받았다.

2023

Back to top ↑