상세 컨텐츠

본문 제목

데이터 분석-PCA 분석 공부

데이터 분석

by jii 2023. 11. 8. 15:10

본문

PCA 분석?

-주성분 분석

-고차원의 data->낮은 차원으로

 

-차원을 어떻게 축소시키는가!

=>새로운 축을 만든다: PC (Principal Component)

*PC는 eigen vector, eigen vectorn차원에 n개

 

-PC는 어떻게 찾는가!

=>분산이 가장 넓은 지역을 찾는다

=>원점을 지나는 직선에 모든 데이터에서 수선을 발을 내리고, 원점으로부터 수선의 발까지의 길이를 구한다.

=>이 길이 제곱들의 합이 최대가 되는 직선이 PC1

*PC1에 직교하는 직선이 PC2

 

-PC1,PC2를 축으로 하여 scree plot 생성

-scree plot은 어떻게 생성하는가!

=>PC1과 PC2의 SS(길이 제곱들의 합) 비율을 구한다.

=>if 9:1이라면, PC1 축이 전체 데이터 특징의 90%를 대표함을 의미

=>PC2 축 제거, 1차원(PCA 분석의 목표!-차원축)으로 나타낼 수 있다.

 

*개념 공부 참고

PCA (Principle Component Analysis) : 주성분 분석 이란? (tistory.com)

 

PCA (Principle Component Analysis) : 주성분 분석 이란?

1. PCA (주성분 분석) PCA는 대표적인 dimensionality reduction (차원 축소)에 쓰이는 기법으로, 머신러닝, 데이터마이닝, 통계 분석, 노이즈 제거 등 다양한 분야에서 널리 쓰이는 녀석이다. 쉽게 말해 PCA

ddongwon.tistory.com


코드 분석 및 공부 내용

*전처리는 생략

Wine.ipynb - Colaboratory (google.com)

 

Wine.ipynb

Colaboratory notebook

colab.research.google.com


*참고:

Chapter04.ipynb - Colaboratory (google.com)

 

Chapter04.ipynb

Colaboratory notebook

colab.research.google.com

*데이터

 https://archive.ics.uci.edu/dataset/186/wine+quality

 

UCI Machine Learning Repository

This dataset is licensed under a Creative Commons Attribution 4.0 International (CC BY 4.0) license. This allows for the sharing and adaptation of the datasets for any purpose, provided that the appropriate credit is given.

archive.ics.uci.edu


K-means 알고리즘

데이터를 K개의 군집(Cluster)으로 묶는 알고리즘

Kmeans.ipynb - Colaboratory (google.com)

 

Google Colaboratory Notebook

Run, share, and edit Python notebooks

colab.research.google.com

*kmeans 알고리즘 적용까지는 아직 방법을 잘 모르겠어서 시도 중

관련글 더보기

댓글 영역