회귀분석-정형
회귀 분석이란? -하나 이상의 독립 변수들이 종속 변수에 미치는 영향을 추정 정형 데이터란? -양적 데이터 -스프레드시트 프로그램에 표시할 수 있는 모든 데이터(즉, 행과 열로 표시 가능) -행
gudong0918.tistory.com
지난 공부의 연장선으로,
선형회귀분석(Linear regression)이란?
-독립변수로 종속변수를 예측
-예측선 긋기!
-독립변수가 하나이면 단순 선형 회귀
-여러개이면 다중 선형 회귀
*예측선은 근사치를 바탕으로 하므로, 당연히 실제 데이터와는 오차가 발생
최소제곱법?
-여기서 a는 (예측선의)기울기, b는 y절편(회귀상수)
-최소제곱법으로 도출해낸 직선 방정식에 독립(입력)변수를 넣어 얻은 종속변수를 연결하면 예측선 도출
=>만약 입력 변수가 여러개라면?(대부분의 데이터셋은 입력변수가 여러개)
:RMSE 사용
회귀모델 성능 분석 지표?
(회귀모델이 잘 학습되었는지 확인하기 위한 평가지표 4가지?)
MAE
-예측값과 실제값 차이의 절댓값의 평균
-절댓값을 취하므로 가장 직관적(해석 용이)(+)
Underperformance&Overperformance의 문제O(-)
MSE(평균 제곱 오차)
-MAE와 다르게 제곱
-제곱을 하므로 특이치에 민감
RMSE(평균 제곱근 오차)
-MSE에 루트
-에러에 따른 손실이 기하급수적으로 올라갈때 사용(+)
-큰 오차에 대해 크게 패널티를 부여(+)
-즉, 특이값에 덜 민감하다(머신러닝 학습에 있어 매우 중요)
R-squared(결정계수)
-위 3가지(에러값이므로 작을수록 +)와 다르게, 1에 가까울수록 (+)
IF)
=>성능이 좋지 않은 경우(낮은 성능): 이유는?
과적합 문제
-1. 파라미터의 수가 너무 많음
-2.독립변수의 값 변화에 너무 민감하게 반응
=>해결 방법은?
규제화
선형 회귀 모형
Lasso
-L1 penalty
-영향력이 미미한 수치를 다른 데이터와 비슷하게 올린다.
Ridge
-L2 penalty
-영향력이 큰 수치를 다른 데이터와 비슷하게 만들어 영향력을 낮춘다.
ElasticNet
-L1&L2 penalty
HousePrice2.ipynb
Colaboratory notebook
colab.research.google.com
데이터 분석-캐글 집값 예측(발표) (0) | 2023.09.29 |
---|---|
데이터 분석-캐글 집값 예측(최종) (0) | 2023.09.25 |
회귀분석-정형 (0) | 2023.09.10 |
수업 자료(5) (0) | 2023.07.24 |
수업 자료(4) (0) | 2023.07.24 |
댓글 영역