개요
1. 데이터 전처리(이상치, 결측값제거 포함)
2. 교차검증, 모델 셋업
3. 스태킹, 스코어
4. 블랜드, 최종결과
다음으로 각 모델들을 블렌딩한 후, 예측값을 출력해보겠습니다. 블렌딩은 앙상블 기법 중 하나로, 앙상블 기법은 머신 러닝에서 다양한 베이스 모델을 결합하여 단일 모델보다 향상된 성능의 예측 모델을 만들어냅니다.
즉, 위와 같이 train set을 학습 시킬 때 한가지 알고리즘이 아니라 다양한 모델을 사용하는 것입니다. 저희는 WEIGHT 블렌딩을 사용했기 때문에 위에서 평가한 각 모델의 예측 능력을 고려해 가중치를 부여했고, 여기서 가중치는 총 합이 1이 되어야 합니다. 그리고 앙상블 모델의 경우 표준 편차를 계산하기 어려우므로, 0으로 설정합니다.
블렌딩한 모델을 포함해 각 모델의 RMSE 값을 출력한 결과, 6가지 개별 모델보다 블렌딩한 모델이 가장 좋은 결과값을 출력해낸 것을 확인할 수 있었습니다.
마지막으로 최종 제출 형식으로 변환을 할텐데, 처음에 정규 분포가 아닌 결과값을 정규 분포 형태로 변환하기 위해 np.log1p()를 이용해 로그 변환을 적용했기 때문에 예측 시에는 다시 결괏값을 expm1()으로 환원해줍니다. 최종 블렌딩한 모델로 예측한 값을 캐글에 제출한 결과, 상위 8%를 기록하였습니다. 감사합니다.
참고: <앙상블> Weighted Blending — 데이터 분석에 대한 이야기 (tistory.com)
[ECC DS 10주차] 회귀 2_캐글 주택 가격:고급 회귀 기법 | 💧 Waterbean’s Playground (chasubeen.github.io)
[데이터분석] 머신러닝 앙상블기법 개념 및 Bagging vs Boosting 차이 : 네이버 블로그 (naver.com)
데이터 분석-K-Means, DBSCAN (0) | 2023.11.15 |
---|---|
데이터 분석-PCA 분석 공부 (2) | 2023.11.08 |
데이터 분석-캐글 집값 예측(최종) (0) | 2023.09.25 |
데이터 분석-캐글 집값 예측 (0) | 2023.09.19 |
회귀분석-정형 (0) | 2023.09.10 |
댓글 영역