데이터사이언스를 위한 통계학입문 2: Ⅶ. 빅데이터 차원축소와 예측모형

  • POSTECH에서 제공하는 MOOC 중, 데이터사이언스를 위한 통계학입문 Ⅱ 과정입니다.

Ⅶ. 빅데이터 차원축소와 예측모형

1. 데이터 탐색과 정제

데이터 탐색

  • Basic Information: 분포, 평균, 최솟값, 최댓값, 분산 등
  • Variation: 변동성, 시계열
  • Outlier: 모든 데이터가 상식적인 범위 안에 존재하는가?
  • Correlation: 변수 간 상관성, 변수 간 상호작용이 있는가?

2. 빅데이터의 차원축소

차원축소기법은 왜 필요한가

  • 현업 데이터의 특성

    • 타겟변수 특성에 영향을 미치는 요인이 매우 많음
  • 변수 간 다중공선성(높은 상관관계, 상호작용)

  • 과적합 위험 증가

  • 타겟값 정보가 들어있는 구조 파악이 어려움

차원축소기법- 주성분분석

  • 주성분분석(Principal Component Analysis; PCA)

    • 가장 대표적인 차원 숙소 방법
    • 첫 번째 변수가 전체 분산을 가장 많이 설명하고, 다음 변수가 나머지 분산을 가장 많이 설명하는 방식으로 변수 생성
    • 새로 구성된 변수는 서로 독립
  • 주성분분석 시행 방법

    1. 데이터 공간에서 분산이 최대인 축을 찾는다. (첫 번째 주성분: PC1)
    2. 첫 번째 축과 직교하며 분산이 최대인 두 번째 축을 찾는다. (두 번째 주성분: PC2)
  • 최적 주성분 찾기

    • 전체 변동에 대한 기여도: 전체 변동의 약 90%를 설명하는 차원까지
    • Scree plot 활용: 기울기가 갑자기 줄어드는 차원까지

3. 데이터 변환에 의한 저차원 시각화

고차원데이터의 차원축소

  • 데이터 유형 파악

    • Classification(Y: 범주형)
    • Prediction(Y: 연속형)
  • 변수 선택(feature selection) 기법

    • 특정 변수를 선택하여 모델링
    • 다중공선성 존재하는 변수는 그 중 하나의 변수만 선택
  • 특징 추출(feature extraction) 기법

    • 새로운 축을 생성했을 때 생기는 변화
    • 고차원 데이터 정보를 보존하며 노이즈를 제거하는 방식으로 특징 추출

고차원데이터의 저차원 시각화

  • 주성분분석: 선형 추출 기법
  • 인접보존기법: 비선형 추출 기법

차원축소와 예측모형

  • Feature Ectraction
    • 인접보존기법
    • 제한적 볼츠만머신
    • 오토인코더
  • Classifier

4. 데이터와 예측모형

데이터와 예측모형

  • 데이터 정제 → 데이터 탐색 → 통계적 모델링(통계모형, 기계학습, 인공지능)

  • 데이터 분석목적

    • 예측(prediction)
    • 분류(classification)
Share