-주성분 분석
-고차원의 data->낮은 차원으로
-차원을 어떻게 축소시키는가!
=>새로운 축을 만든다: PC (Principal Component)
*PC는 eigen vector, eigen vector 는 n차원에 n개
-PC는 어떻게 찾는가!
=>분산이 가장 넓은 지역을 찾는다
=>원점을 지나는 직선에 모든 데이터에서 수선을 발을 내리고, 원점으로부터 수선의 발까지의 길이를 구한다.
=>이 길이 제곱들의 합이 최대가 되는 직선이 PC1
*PC1에 직교하는 직선이 PC2
-PC1,PC2를 축으로 하여 scree plot 생성
-scree plot은 어떻게 생성하는가!
=>PC1과 PC2의 SS(길이 제곱들의 합) 비율을 구한다.
=>if 9:1이라면, PC1 축이 전체 데이터 특징의 90%를 대표함을 의미
=>PC2 축 제거, 1차원(PCA 분석의 목표!-차원축)으로 나타낼 수 있다.
*개념 공부 참고
PCA (Principle Component Analysis) : 주성분 분석 이란? (tistory.com)
PCA (Principle Component Analysis) : 주성분 분석 이란?
1. PCA (주성분 분석) PCA는 대표적인 dimensionality reduction (차원 축소)에 쓰이는 기법으로, 머신러닝, 데이터마이닝, 통계 분석, 노이즈 제거 등 다양한 분야에서 널리 쓰이는 녀석이다. 쉽게 말해 PCA
ddongwon.tistory.com
*전처리는 생략
Wine.ipynb - Colaboratory (google.com)
Wine.ipynb
Colaboratory notebook
colab.research.google.com
*참고:
Chapter04.ipynb - Colaboratory (google.com)
Chapter04.ipynb
Colaboratory notebook
colab.research.google.com
*데이터
https://archive.ics.uci.edu/dataset/186/wine+quality
UCI Machine Learning Repository
This dataset is licensed under a Creative Commons Attribution 4.0 International (CC BY 4.0) license. This allows for the sharing and adaptation of the datasets for any purpose, provided that the appropriate credit is given.
archive.ics.uci.edu
데이터를 K개의 군집(Cluster)으로 묶는 알고리즘
Kmeans.ipynb - Colaboratory (google.com)
Google Colaboratory Notebook
Run, share, and edit Python notebooks
colab.research.google.com
*kmeans 알고리즘 적용까지는 아직 방법을 잘 모르겠어서 시도 중
2023 시즌 두산베어스 경기 데이터 분석 (0) | 2023.11.21 |
---|---|
데이터 분석-K-Means, DBSCAN (0) | 2023.11.15 |
데이터 분석-캐글 집값 예측(발표) (0) | 2023.09.29 |
데이터 분석-캐글 집값 예측(최종) (0) | 2023.09.25 |
데이터 분석-캐글 집값 예측 (0) | 2023.09.19 |
댓글 영역