데이터사이언스를 위한 통계학입문 2: Ⅵ. 현업 데이터 특성과 예측모형

Postech, 과소적합, 과적합, 표본추출

POSTECH에서 제공하는 MOOC 중, 데이터사이언스를 위한 통계학입문 Ⅱ 과정입니다.

Ⅵ. 현업 데이터 특성과 예측모형

1. 데이터 수집- random의 의미

데이터 수집

데이터 수집에서는 양질의 데이터를 확보하는 것이 중요
- 나쁜 데이터로는 나쁜 모델밖에 만들 수 없음
- ‘대표성’, ‘랜덤’ 데이터

데이터 수집_표본 추출

좋은 표본: 모집단의 특성을 가능한 정확하게 반영한 표본
표본추출에서 가장 중요한 문제는 대표성 있는 표본을 확보하는 것

전수조사 vs 표본조사

전수조사: 연구대상집단의 모든 데이터 수집
표본조사: 연구대상집단 일부 데이터 추출

랜덤의 의미

무작위 추출(Random sampling)
- 모집단에서 표본을 뽑을 때 각 개체가 선택될 확률은 동일
- 무작위로 추출된 표본은 편의가 최대한 배제됨

군집표본추출 vs 층화표본추출

군집표본추출(cluster sampling)
- 각 군집(cluster)이 동일한 특성을 갖고 있다면, 그 중 무작위로 cluster 선택
  - e.g. 학급, ##구, ##동
층화표본추출(stratified sampling)
- 모집단 내 하위집단 특성이 다를 때, 하위집단을 기반으로 표본 선택
  - e.g. 정치적 의견(연령별, 지역별)

복원추출 vs 비복원추출

복원추출: 표본추출 시 뽑은 표본의 데이터를 다시 넣고 추출
비복원추출: 표본추출 시 추출된 표본을 제외하고 다음 추출

2. 예측모형에서 training과 test set

예측모형을 구현할 때

e.g. 영화 추천, 음악 추천
어떻게 원하는 콘텐츠를 예측하여 추천하는가?
- 과거 구매패턴을 분석하여 미래 구매를 예측(추천)
  - 과거 데이터 → 분석 → 예측 모형 → 예측
주어진 데이터 → 예측모형
- 모형이 적절한지 어떻게 판단하는가?

예측모형: 좋은 예측모형

좋은 예측모형이란
- 새로운 데이터가 들어왔을 때 정확하게 예측하는 모형
  - 훈련데이터(Training set): 모형을 만들기 위해 사용
  - 검증데이터(Test set): 만들어진 모형 성능 평가에 사용
k-fold cross-validation (k=3, 5, 10)
- 주어진 데이터를 몇 개로 나눌 것인지
- k-1/k는 훈련데이터로, 1/k는 검증데이터로 사용
- 데이터 나누는 것은 random split으로

3. 예측모형의 과적합(overfitting)

예측모형의 과적합

과적합(overfitting): 주어진 데이터에 과하게 적합하여, 새로운 데이터가 들어왔을 때 정확도를 보장할 수 없는 경우
과소적합(Under-fitted)
적정적합(Generalized-fitted)
과잉적합(Over-fitted)

4. over & under sampling 문제

데이터 기반 예측 모형

데이터를 기반으로 모델을 생성하여 새로운 데이터 예측 가능

데이터 불균형 문제

집단 간 데이터 비율 차이가 크면 다수 집단의 정확도를 기준으로 예측모형이 결정될 수 있음
- e.g. 보험 사기 건 수
- 전체 데이터 25개 중, 범주 1인 22개만 정확히 분류하고 범주 2인 3개는 모두 오분류된다고 해도 전체 정확도는 88%로 높음

→ 전체 정확도 기준 이외, 소수집단 오분류율에 위험 비용을 주고 최적화된 모형을 찾는 것이 바람직함

데이터 균형 맞추기

Over-sampling: 소수범주에서 다수범주 수만큼 복원 추출
- 장) 정보 손실 없음
- 단) 소수 데이터가 단순 복사되어 과적합 가능성 있음
Under-sampling: 다수범주에서 소수범주 수만큼 랜덤하게 추출
- 장) 데이터 저장 용량 감소, 데이터가 적어 실행 속도 향상
- 단) 중요 정보 누락될 가능성 있음

→ 혼합형 방식의 sampling 사용