데이터사이언스를 위한 통계학입문 2: Ⅵ. 현업 데이터 특성과 예측모형

  • POSTECH에서 제공하는 MOOC 중, 데이터사이언스를 위한 통계학입문 Ⅱ 과정입니다.

Ⅵ. 현업 데이터 특성과 예측모형

1. 데이터 수집- random의 의미

데이터 수집

  • 데이터 수집에서는 양질의 데이터를 확보하는 것이 중요
    • 나쁜 데이터로는 나쁜 모델밖에 만들 수 없음
    • ‘대표성’, ‘랜덤’ 데이터

데이터 수집_표본 추출

  • 좋은 표본: 모집단의 특성을 가능한 정확하게 반영한 표본
  • 표본추출에서 가장 중요한 문제는 대표성 있는 표본을 확보하는 것

전수조사 vs 표본조사

  • 전수조사: 연구대상집단의 모든 데이터 수집
  • 표본조사: 연구대상집단 일부 데이터 추출

랜덤의 의미

  • 무작위 추출(Random sampling)
    • 모집단에서 표본을 뽑을 때 각 개체가 선택될 확률은 동일
    • 무작위로 추출된 표본은 편의가 최대한 배제됨

군집표본추출 vs 층화표본추출

  • 군집표본추출(cluster sampling)

    • 각 군집(cluster)이 동일한 특성을 갖고 있다면, 그 중 무작위로 cluster 선택
      • e.g. 학급, ##구, ##동
  • 층화표본추출(stratified sampling)

    • 모집단 내 하위집단 특성이 다를 때, 하위집단을 기반으로 표본 선택
      • e.g. 정치적 의견(연령별, 지역별)

복원추출 vs 비복원추출

  • 복원추출: 표본추출 시 뽑은 표본의 데이터를 다시 넣고 추출
  • 비복원추출: 표본추출 시 추출된 표본을 제외하고 다음 추출

2. 예측모형에서 training과 test set

예측모형을 구현할 때

  • e.g. 영화 추천, 음악 추천

  • 어떻게 원하는 콘텐츠를 예측하여 추천하는가?

    • 과거 구매패턴을 분석하여 미래 구매를 예측(추천)
      • 과거 데이터 → 분석 → 예측 모형 → 예측
  • 주어진 데이터 → 예측모형

    • 모형이 적절한지 어떻게 판단하는가?

예측모형: 좋은 예측모형

  • 좋은 예측모형이란

    • 새로운 데이터가 들어왔을 때 정확하게 예측하는 모형
      • 훈련데이터(Training set): 모형을 만들기 위해 사용
      • 검증데이터(Test set): 만들어진 모형 성능 평가에 사용
  • k-fold cross-validation (k=3, 5, 10)

    • 주어진 데이터를 몇 개로 나눌 것인지
    • k-1/k는 훈련데이터로, 1/k는 검증데이터로 사용
    • 데이터 나누는 것은 random split으로

3. 예측모형의 과적합(overfitting)

예측모형의 과적합

  • 과적합(overfitting): 주어진 데이터에 과하게 적합하여, 새로운 데이터가 들어왔을 때 정확도를 보장할 수 없는 경우

  • 과소적합(Under-fitted)

  • 적정적합(Generalized-fitted)

  • 과잉적합(Over-fitted)

4. over & under sampling 문제

데이터 기반 예측 모형

  • 데이터를 기반으로 모델을 생성하여 새로운 데이터 예측 가능

데이터 불균형 문제

  • 집단 간 데이터 비율 차이가 크면 다수 집단의 정확도를 기준으로 예측모형이 결정될 수 있음
    • e.g. 보험 사기 건 수
    • 전체 데이터 25개 중, 범주 1인 22개만 정확히 분류하고 범주 2인 3개는 모두 오분류된다고 해도 전체 정확도는 88%로 높음

→ 전체 정확도 기준 이외, 소수집단 오분류율에 위험 비용을 주고 최적화된 모형을 찾는 것이 바람직함

데이터 균형 맞추기

  • Over-sampling: 소수범주에서 다수범주 수만큼 복원 추출
    • 장) 정보 손실 없음
    • 단) 소수 데이터가 단순 복사되어 과적합 가능성 있음
  • Under-sampling: 다수범주에서 소수범주 수만큼 랜덤하게 추출
    • 장) 데이터 저장 용량 감소, 데이터가 적어 실행 속도 향상
    • 단) 중요 정보 누락될 가능성 있음

→ 혼합형 방식의 sampling 사용

Share