데이터사이언스를 위한 통계학입문 2: Ⅴ. 통계검정방법

  • POSTECH에서 제공하는 MOOC 중, 데이터사이언스를 위한 통계학입문 Ⅱ 과정입니다.

Ⅴ. 통계검정방법

1. 신뢰구간의 의미

신뢰구간

  • 신뢰구간: 구간추정
    • 실제 모수가 존재할 가능성이 높은 구간으로 추정
    • 모평균, 모비율 등 모수를 포함할 확률
    • 신뢰수준(Confidence level): 구간에 모수 μ가 포함될 확률
    • 일반적으로 100(1-α)%로 나타냄

95% 신뢰구간의 의미

  • 100번의 반복샘플링으로 얻은 평균과 편차로 계산한 100개의 신뢰구간 중, 5개는 실제 모평균(μ)을 포함하고 있지 않는다.
  • 표본을 통해 얻은 95% 신뢰구간에 실제 모평균이 포함되지 않을 확률은 5%이다
  • 전체 집단(즉, 모집단 전체)을 조사할 수 없기 때문에 이용한다
  • 신뢰구간은 고정된 단일 값이 아닌 움직이는 여러 값이다.

적당한 신뢰구간은?

  • 90% 신뢰구간: zα/2 = z0.5 = 1.65
  • 95% 신뢰구간: zα/2 = z0.25 = 1.96
  • 99% 신뢰구간: zα/2 = z0.05 = 2.57

표본사이즈와 허용오차

  • 허용오차를 일정수준으로 정하면 그에 따른 표본크기가 정해짐
  • 신뢰구간에서 허용오차에 영향을 미치는 요소
    • 표본의 크기, 유의수준, 표준편차 (표본평균은 X)

요약

  • 실험 및 조사설계 시에는 허용오차 및 신뢰수준을 고려해야 정확한 분석이 가능

2. 통계적 검정은 왜 필요한가

통계적 검정이란?

  • 가설의 진위 여부를 판단, 증명, 검정하는 통계적 추론 방식

    • 귀무가설(Null Hypothesis, H0)

      • 검정 대상이 되는 가설
      • 기각(reject)을 목표로 함
    • 대립가설(Alternative Hypothesis, H1)

      • 귀무가설이 기각될 때 받아들여지는 가설
      • 채택(accept)을 목표로 함
  • 가설 검정 절차

    • 가설 설정 → 유의수준 설정 → 검정통계량 산출 → 가설 기각/채택

검정 예시: T-test

  • 단측검정(one-sided test)
  • 양측검정(two-sided test): 기각역이 양측

단측검정

  • 소비자 주장) 카페에서 파는 커피 용량이 200ml보다 작다.
    • 귀무가설(H0): 커피 용량은 200ml다
    • 대립가설(H1): 커피 용량은 200ml보다 적다

t-분포를 이용한 검정

  • 한 집단 혹은 두 집단 간 평균 차이에 대한 통계적 검정 방법
    • T-distribution
      • 사회 현상은 평균 데이터가 많으므로 정규 분포(normal distribution) 형태
      • 정규 분포는 표본의 데이터 수가 많아야 신뢰도가 향상됨(일반적으로 30개 이상)
      • 데이터가 적은 경우, 예측 범위가 더 넓은 T-distribution 사용
    • T-test의 가정
      • 독립성: 두 집단 변수는 서로 독립
      • 정규성: 두 집단 데이터는 정규분포를 만족
      • 등분산성: 두 집단 분산은 동일

통계적 검정의 계산 예시

  • t = 표본평균 - μ / (표본표준편차(s)/표본의 수 루트)

3. 두 집단 t-검정

두 집단 간 평균 비교

  • 학습 목표
    • 두 모집단 평균 비교를 위한 t-검정 계산 과정 익히기

t-검정 검정통계량과 기각역

  • 가설 → 조사 → 데이터 → 검정통계량 → 가설에 대한 결정 (유의수준 α)
    • 검정통계량이 기각역 안에 있으면 귀무가설 기각 → 대립가설 인정

퀴즈

4. p-value의 실제 의미

p-value

  • 데이터 결과 자료에서 보게 되는 값
  • 변수의 통계적 유의도를 나타내는 값 (유의확률)

p-value 찾기

  • 예제

    • 25개 표본의 과자 한 팩 평균 무게가 87g이다. (모표준편차 = 15g) 유의수준 α = 0.05에서 과자 한 팩이 80g 이상이라고 할 수 있는가?

    • 귀무가설: μ = 80, 대립가설: μ > 80

    • 검정통계량 Z = 2.33

    • 검정통계량이 기각역 하에 있으면 귀무가설을 기각

  • 결과: 과자 한 팩 무게는 80g이라는 주장을 인정

  • 통계검정에서 p-value는?

    • p-value는 유의확률: 대립가설에 대한 증거의 정도
    • p-value가 작다는 것은 그 검정이 매우 유의하다는 증거
      → p-value는 변수의 유의성 정도 혹은 검정의 유의도를 나타냄

검정의 오류

  • 통계적 추정을 해석할 때 발생하는 오차
    • Type 1 error: H0이 참인데 기각하는 오류
    • Type 2 error: H0이 거짓인데 채택하는 오류

|||H0 true|H0 false|
|—|—|—|
|H0 accept|1-α|Type 2 error(β)|
|H0 reject|Type 1 error(α)|Power(1-β)|

Share