상세 컨텐츠

본문 제목

데이터 분석-캐글 집값 예측

데이터 분석

by jii 2023. 9. 19. 18:06

본문

회귀분석-정형 (tistory.com)

 

회귀분석-정형

회귀 분석이란? -하나 이상의 독립 변수들이 종속 변수에 미치는 영향을 추정 정형 데이터란? -양적 데이터 -스프레드시트 프로그램에 표시할 수 있는 모든 데이터(즉, 행과 열로 표시 가능) -행

gudong0918.tistory.com

지난 공부의 연장선으로,
선형회귀분석(Linear regression)이란?
 
-독립변수로 종속변수를 예측
-예측선 긋기!
-독립변수가 하나이면 단순 선형 회귀
-여러개이면 다중 선형 회귀
*예측선은 근사치를 바탕으로 하므로, 당연히 실제 데이터와는 오차가 발생
 
최소제곱법?

-여기서 a는 (예측선의)기울기, b는 y절편(회귀상수)
-최소제곱법으로 도출해낸 직선 방정식에 독립(입력)변수를 넣어 얻은 종속변수를 연결하면 예측선 도출
 
=>만약 입력 변수가 여러개라면?(대부분의 데이터셋은 입력변수가 여러개)
:RMSE 사용
 
회귀모델 성능 분석 지표?
(회귀모델이 잘 학습되었는지 확인하기 위한 평가지표 4가지?)

MAE

-예측값과 실제값 차이의 절댓값의 평균
-절댓값을 취하므로 가장 직관적(해석 용이)(+)
                                    Underperformance&Overperformance의 문제O(-)

MSE(평균 제곱 오차)

-MAE와 다르게 제곱
-제곱을 하므로 특이치에 민감

RMSE(평균 제곱근 오차)
-MSE에 루트
-에러에 따른 손실이 기하급수적으로 올라갈때 사용(+)
-큰 오차에 대해 크게 패널티를 부여(+)
-즉, 특이값에 덜 민감하다(머신러닝 학습에 있어 매우 중요)
 
R-squared(결정계수)
 -위 3가지(에러값이므로 작을수록 +)와 다르게, 1에 가까울수록 (+)
 
IF) 
=>성능이 좋지 않은 경우(낮은 성능):  이유는?
과적합 문제
-1. 파라미터의 수가 너무 많음
-2.독립변수의 값 변화에 너무 민감하게 반응
 
=>해결 방법은?
규제화
 
 
선형 회귀 모형
Lasso
-L1 penalty
-영향력이 미미한 수치를 다른 데이터와 비슷하게 올린다.
Ridge
-L2 penalty
-영향력이 큰 수치를 다른 데이터와 비슷하게 만들어 영향력을 낮춘다.
ElasticNet
-L1&L2 penalty
 

Ridge,Lasso,ElasticNet을 이용한 집값예측

Google Colab

 

HousePrice2.ipynb

Colaboratory notebook

colab.research.google.com

 

'데이터 분석' 카테고리의 다른 글

데이터 분석-캐글 집값 예측(발표)  (0) 2023.09.29
데이터 분석-캐글 집값 예측(최종)  (0) 2023.09.25
회귀분석-정형  (0) 2023.09.10
수업 자료(5)  (0) 2023.07.24
수업 자료(4)  (0) 2023.07.24

관련글 더보기

댓글 영역