데이터사이언스를 위한 통계학입문 2: Ⅶ. 빅데이터 차원축소와 예측모형

Ⅶ. 빅데이터 차원축소와 예측모형

주성분분석(Principal Component Analysis; PCA)
- 가장 대표적인 차원 숙소 방법
- 첫 번째 변수가 전체 분산을 가장 많이 설명하고, 다음 변수가 나머지 분산을 가장 많이 설명하는 방식으로 변수 생성
- 새로 구성된 변수는 서로 독립
주성분분석 시행 방법
1. 데이터 공간에서 분산이 최대인 축을 찾는다. (첫 번째 주성분: PC1)
2. 첫 번째 축과 직교하며 분산이 최대인 두 번째 축을 찾는다. (두 번째 주성분: PC2)
최적 주성분 찾기
- 전체 변동에 대한 기여도: 전체 변동의 약 90%를 설명하는 차원까지
- Scree plot 활용: 기울기가 갑자기 줄어드는 차원까지

데이터 유형 파악
- Classification(Y: 범주형)
- Prediction(Y: 연속형)
변수 선택(feature selection) 기법
- 특정 변수를 선택하여 모델링
- 다중공선성 존재하는 변수는 그 중 하나의 변수만 선택
특징 추출(feature extraction) 기법
- 새로운 축을 생성했을 때 생기는 변화
- 고차원 데이터 정보를 보존하며 노이즈를 제거하는 방식으로 특징 추출