데이터 분석-PCA 분석 공부
PCA 분석?
-주성분 분석
-고차원의 data->낮은 차원으로
-차원을 어떻게 축소시키는가!
=>새로운 축을 만든다: PC (Principal Component)
*PC는 eigen vector, eigen vector 는 n차원에 n개
-PC는 어떻게 찾는가!
=>분산이 가장 넓은 지역을 찾는다
=>원점을 지나는 직선에 모든 데이터에서 수선을 발을 내리고, 원점으로부터 수선의 발까지의 길이를 구한다.
=>이 길이 제곱들의 합이 최대가 되는 직선이 PC1
*PC1에 직교하는 직선이 PC2
-PC1,PC2를 축으로 하여 scree plot 생성
-scree plot은 어떻게 생성하는가!
=>PC1과 PC2의 SS(길이 제곱들의 합) 비율을 구한다.
=>if 9:1이라면, PC1 축이 전체 데이터 특징의 90%를 대표함을 의미
=>PC2 축 제거, 1차원(PCA 분석의 목표!-차원축)으로 나타낼 수 있다.
*개념 공부 참고
PCA (Principle Component Analysis) : 주성분 분석 이란? (tistory.com)
PCA (Principle Component Analysis) : 주성분 분석 이란?
1. PCA (주성분 분석) PCA는 대표적인 dimensionality reduction (차원 축소)에 쓰이는 기법으로, 머신러닝, 데이터마이닝, 통계 분석, 노이즈 제거 등 다양한 분야에서 널리 쓰이는 녀석이다. 쉽게 말해 PCA
ddongwon.tistory.com
코드 분석 및 공부 내용
*전처리는 생략
Wine.ipynb - Colaboratory (google.com)
Wine.ipynb
Colaboratory notebook
colab.research.google.com
*참고:
Chapter04.ipynb - Colaboratory (google.com)
Chapter04.ipynb
Colaboratory notebook
colab.research.google.com
*데이터
https://archive.ics.uci.edu/dataset/186/wine+quality
UCI Machine Learning Repository
This dataset is licensed under a Creative Commons Attribution 4.0 International (CC BY 4.0) license. This allows for the sharing and adaptation of the datasets for any purpose, provided that the appropriate credit is given.
archive.ics.uci.edu
K-means 알고리즘
데이터를 K개의 군집(Cluster)으로 묶는 알고리즘
Kmeans.ipynb - Colaboratory (google.com)
Google Colaboratory Notebook
Run, share, and edit Python notebooks
colab.research.google.com
*kmeans 알고리즘 적용까지는 아직 방법을 잘 모르겠어서 시도 중