데이터사이언스를 위한 통계학입문 1: Ⅱ. 빅데이터 탐색의 첫걸음

  • POSTECH에서 제공하는 MOOC 중, 데이터사이언스를 위한 통계학입문 Ⅰ 과정입니다.

Ⅱ. 빅데이터 탐색의 첫걸음

1. 데이터의 평균(중심위치)

평균

  • 평균은 데이터를 하나의 값으로 표현한 요약된 정보: 추정치
  • 평균 = 데이터 값의 총합 / 데이터 개수

평균 다룰 때 주의할 점

  • 평균은 혼자 존재하는 개념이 아님
  1. 평균과 표본선정

    • 표본선정에 따라 평균값이 달라짐

    • ex. 대기업 평균 연봉 조사

      • 표본 A: 연령대별로 각 50명씩 선정
      • 표본 B: 50대에서 200명을 선정
    • 조사된 평균값이 모집단을 대표하는 통계치라고 할 수 있는가?

    • 표본이 적합하게 추출되었는지 평가하는 법

      • 편의(bias)가 적은가: 표본으로부터 얻어지는 통계치(표본평균)의 기대값이 모수의 참값과 유사한가?
      • 정확도(precision)가 높은가: 반복해서 표본 추출 시, 얼마나 유사한 값이 나오는가?
  2. 평균과 분산

    • 같은 평균이라도 분산이 다르면 데이터 특성이 달라짐
  3. 평균값은 그 집단에서 가장 많이 존재하는 것이 아님

    • 데이터: 1, 2, 2, 7
    • 평균: 3

데이터의 중심척도

  • 평균(mean)

    • 표본이 적은 경우, 아주 큰 값이나 작은 값(outlier)에 민감한 추정치
    • 중앙값이 평균보다 더 적합한 중심척도인 경우도 있음
  • 중앙값(median)

    • n개의 관측치를 크기순으로 배열했을 때, 중앙 위치에 놓이는 값
    • 데이터 수가 작고 이상치(outlier)가 있을 때, 평균보다 더 정확한 모집단의 중심값이 됨
  • 최빈값(mode)

    • 전체 데이터 중, 가장 빈도(frequency)가 높은 값
    • 데이터 수가 많아질수록 평균과 가까워짐

2. 데이터의 분산(산포정도)

어느 집단 분산이 클까?

  • 평균만 아는 사람 vs 평균과 표준편차를 아는 사람
  • 평균 연봉은 같지만 편차가 큰 경우, 편차가 적은 기업에 비해 초봉이 낮고 승진 시 월급이 높아짐

분산 공식

  • 데이터 평균과 데이터간 거리 합으로 분산 계산
    • 데이터: x1, x2, …, xn
    • 평균: Xbar
    • 편차: (x1 - xbar),(x2 - xbar),…,(xn - xbar)
    • 편차들의 합: (x1 - xbar) + (x2 - xbar) + … + (xn - xbar) = ?

- 데이터가 평균으로부터 대칭적으로 존재할 경우, 편차들의 합이 0 → **편차를 제곱하여 더함** - 분산 = 편차들의 제곱합을 (n-1)*로 나눔 - (n-1)로 나누는 이유: 자유도와 관련, 평균값으로 표본평균을 사용하므로 1개의 자유도를 잃게 되어 (n-1)로 나눔

표준편차

  • (개별데이터값 - 평균값) 차이를 제곱하여 더하였으므로 값이 커지고 단위가 달라짐
    → 분산에 제곱근을 취하여 원래 단위로 복원 → 표준편차라고 부름

분산의 의미

  • 분산: 데이터가 분포되어있는 정도
    • 데이터에 대한 요약 정보 보완
    • 평균값만으로는 데이터 상상이 어려움

3. 데이터와 빅데이터

데이터란?

  • 모든 숫자를 데이터라고 할 수 있을까? No
  • 데이터: 구조화된 데이터
    • 다차원 배열(매트릭스)
    • 각 열의 형식이 다른 표 or 스프레드시트
    • 탭이나 텍스트파일 형식으로 저장

데이터화(Datafication)

  • 기계가 읽어들일 수 있는 모든 것(숫자, 이미지, 텍스트)을 데이터로 변환하는 것
  • 개인의 활동을 실시간으로 추적해 이를 예측분석이 가능한 수량화된 온라인 데이터로 변환하는 것을 의미

빅데이터란

  • Volume(양)
  • Velocity(속도)
  • Variety(다양성)

4. 데이터 탐색의 첫걸음

통계치로 인사이트 얻기

  • ㅇㅇ회사 공채에 합격하기 위해 합격자 평균 분석
  • 사람들이 선호하는 기업 문화 알아보기

최적의 의사결정: 데이터탐색

  • 공정에 대한 평균, 산포, 불량률 추정
    • 품질 변동상황을 관리도(control chart)로 표현
    • 공정에 발생하는 이상요인을 빨리 탐지하여 수정조치 → 불량 사전 예방
    • 공정에서 정상범위 관리도 차트
    • 중심선, 관리상한선, 관리하한선을 어떻게 정할 것인가?

숨겨진 패턴 분석: 분류

  • 암과 정상 뇌 영상을 숫자화(데이터화)함

    • 분류(암/정상)를 가장 잘 구분하는 변수를 찾고, 범주간 차이를 가장 잘 표현하는 새로운 함수를 구함
    • 새로운 환자 영상을 보고 어느 범주에 더 가까운지를 판별하여 암 여부를 진단
  • 두 범주가 잘 분류된다는 것: 두 범주가 겹치지 않으면서 두 범주 중심위치가 가능한 먼 것

트렌드 분석: 웹 마이닝

  • 1년간 검색어 트렌드 분석
  • Moving Average를 통한 트렌드 파악
Share