- POSTECH에서 제공하는 MOOC 중, 데이터사이언스를 위한 통계학입문 Ⅱ 과정입니다.
Ⅶ. 빅데이터 차원축소와 예측모형
1. 데이터 탐색과 정제
데이터 탐색
- Basic Information: 분포, 평균, 최솟값, 최댓값, 분산 등
- Variation: 변동성, 시계열
- Outlier: 모든 데이터가 상식적인 범위 안에 존재하는가?
- Correlation: 변수 간 상관성, 변수 간 상호작용이 있는가?
2. 빅데이터의 차원축소
차원축소기법은 왜 필요한가
현업 데이터의 특성
- 타겟변수 특성에 영향을 미치는 요인이 매우 많음
변수 간 다중공선성(높은 상관관계, 상호작용)
과적합 위험 증가
타겟값 정보가 들어있는 구조 파악이 어려움
차원축소기법- 주성분분석
주성분분석(Principal Component Analysis; PCA)
- 가장 대표적인 차원 숙소 방법
- 첫 번째 변수가 전체 분산을 가장 많이 설명하고, 다음 변수가 나머지 분산을 가장 많이 설명하는 방식으로 변수 생성
- 새로 구성된 변수는 서로 독립
주성분분석 시행 방법
- 데이터 공간에서 분산이 최대인 축을 찾는다. (첫 번째 주성분: PC1)
- 첫 번째 축과 직교하며 분산이 최대인 두 번째 축을 찾는다. (두 번째 주성분: PC2)
최적 주성분 찾기
- 전체 변동에 대한 기여도: 전체 변동의 약 90%를 설명하는 차원까지
- Scree plot 활용: 기울기가 갑자기 줄어드는 차원까지
3. 데이터 변환에 의한 저차원 시각화
고차원데이터의 차원축소
데이터 유형 파악
- Classification(Y: 범주형)
- Prediction(Y: 연속형)
변수 선택(feature selection) 기법
- 특정 변수를 선택하여 모델링
- 다중공선성 존재하는 변수는 그 중 하나의 변수만 선택
특징 추출(feature extraction) 기법
- 새로운 축을 생성했을 때 생기는 변화
- 고차원 데이터 정보를 보존하며 노이즈를 제거하는 방식으로 특징 추출
고차원데이터의 저차원 시각화
- 주성분분석: 선형 추출 기법
- 인접보존기법: 비선형 추출 기법
차원축소와 예측모형
- Feature Ectraction
- 인접보존기법
- 제한적 볼츠만머신
- 오토인코더
- Classifier
4. 데이터와 예측모형
데이터와 예측모형
데이터 정제 → 데이터 탐색
→ 통계적 모델링(통계모형, 기계학습, 인공지능)데이터 분석목적
- 예측(prediction)
- 분류(classification)