데이터사이언스를 위한 통계학입문 1: Ⅱ. 빅데이터 탐색의 첫걸음

Postech, 분산, 평균

POSTECH에서 제공하는 MOOC 중, 데이터사이언스를 위한 통계학입문 Ⅰ 과정입니다.

Ⅱ. 빅데이터 탐색의 첫걸음

1. 데이터의 평균(중심위치)

평균

평균은 데이터를 하나의 값으로 표현한 요약된 정보: 추정치
평균 = 데이터 값의 총합 / 데이터 개수

평균 다룰 때 주의할 점

평균은 혼자 존재하는 개념이 아님

평균과 표본선정
- 표본선정에 따라 평균값이 달라짐
- ex. 대기업 평균 연봉 조사
  - 표본 A: 연령대별로 각 50명씩 선정
  - 표본 B: 50대에서 200명을 선정
- 조사된 평균값이 모집단을 대표하는 통계치라고 할 수 있는가?
- 표본이 적합하게 추출되었는지 평가하는 법
  - 편의(bias)가 적은가: 표본으로부터 얻어지는 통계치(표본평균)의 기대값이 모수의 참값과 유사한가?
  - 정확도(precision)가 높은가: 반복해서 표본 추출 시, 얼마나 유사한 값이 나오는가?
평균과 분산
- 같은 평균이라도 분산이 다르면 데이터 특성이 달라짐
평균값은 그 집단에서 가장 많이 존재하는 것이 아님
- 데이터: 1, 2, 2, 7
- 평균: 3

데이터의 중심척도

평균(mean)
- 표본이 적은 경우, 아주 큰 값이나 작은 값(outlier)에 민감한 추정치
- 중앙값이 평균보다 더 적합한 중심척도인 경우도 있음
중앙값(median)
- n개의 관측치를 크기순으로 배열했을 때, 중앙 위치에 놓이는 값
- 데이터 수가 작고 이상치(outlier)가 있을 때, 평균보다 더 정확한 모집단의 중심값이 됨
최빈값(mode)
- 전체 데이터 중, 가장 빈도(frequency)가 높은 값
- 데이터 수가 많아질수록 평균과 가까워짐

2. 데이터의 분산(산포정도)

어느 집단 분산이 클까?

평균만 아는 사람 vs 평균과 표준편차를 아는 사람
평균 연봉은 같지만 편차가 큰 경우, 편차가 적은 기업에 비해 초봉이 낮고 승진 시 월급이 높아짐

분산 공식

데이터 평균과 데이터간 거리 합으로 분산 계산
- 데이터: x1, x2, …, xn
- 평균: Xbar
- 편차: (x1 - xbar),(x2 - xbar),…,(xn - xbar)
- 편차들의 합: (x1 - xbar) + (x2 - xbar) + … + (xn - xbar) = ?

- 데이터가 평균으로부터 대칭적으로 존재할 경우, 편차들의 합이 0 → **편차를 제곱하여 더함** - 분산 = 편차들의 제곱합을 (n-1)*로 나눔 - (n-1)로 나누는 이유: 자유도와 관련, 평균값으로 표본평균을 사용하므로 1개의 자유도를 잃게 되어 (n-1)로 나눔

표준편차

(개별데이터값 - 평균값) 차이를 제곱하여 더하였으므로 값이 커지고 단위가 달라짐
→ 분산에 제곱근을 취하여 원래 단위로 복원 → 표준편차라고 부름

분산의 의미

분산: 데이터가 분포되어있는 정도
- 데이터에 대한 요약 정보 보완
- 평균값만으로는 데이터 상상이 어려움

3. 데이터와 빅데이터

데이터란?

모든 숫자를 데이터라고 할 수 있을까? No
데이터: 구조화된 데이터
- 다차원 배열(매트릭스)
- 각 열의 형식이 다른 표 or 스프레드시트
- 탭이나 텍스트파일 형식으로 저장

데이터화(Datafication)

기계가 읽어들일 수 있는 모든 것(숫자, 이미지, 텍스트)을 데이터로 변환하는 것
개인의 활동을 실시간으로 추적해 이를 예측분석이 가능한 수량화된 온라인 데이터로 변환하는 것을 의미

빅데이터란

Volume(양)
Velocity(속도)
Variety(다양성)

4. 데이터 탐색의 첫걸음

통계치로 인사이트 얻기

ㅇㅇ회사 공채에 합격하기 위해 합격자 평균 분석
사람들이 선호하는 기업 문화 알아보기

최적의 의사결정: 데이터탐색

공정에 대한 평균, 산포, 불량률 추정
- 품질 변동상황을 관리도(control chart)로 표현
- 공정에 발생하는 이상요인을 빨리 탐지하여 수정조치 → 불량 사전 예방
- 공정에서 정상범위 관리도 차트
- 중심선, 관리상한선, 관리하한선을 어떻게 정할 것인가?

숨겨진 패턴 분석: 분류

암과 정상 뇌 영상을 숫자화(데이터화)함
- 분류(암/정상)를 가장 잘 구분하는 변수를 찾고, 범주간 차이를 가장 잘 표현하는 새로운 함수를 구함
- 새로운 환자 영상을 보고 어느 범주에 더 가까운지를 판별하여 암 여부를 진단
두 범주가 잘 분류된다는 것: 두 범주가 겹치지 않으면서 두 범주 중심위치가 가능한 먼 것

트렌드 분석: 웹 마이닝

1년간 검색어 트렌드 분석
Moving Average를 통한 트렌드 파악