- POSTECH에서 제공하는 MOOC 중, 데이터사이언스를 위한 통계학입문 Ⅰ 과정입니다.
Ⅱ. 빅데이터 탐색의 첫걸음
1. 데이터의 평균(중심위치)
평균
- 평균은 데이터를 하나의 값으로 표현한 요약된 정보: 추정치
- 평균 = 데이터 값의 총합 / 데이터 개수
평균 다룰 때 주의할 점
- 평균은 혼자 존재하는 개념이 아님
평균과 표본선정
표본선정에 따라 평균값이 달라짐
ex. 대기업 평균 연봉 조사
- 표본 A: 연령대별로 각 50명씩 선정
- 표본 B: 50대에서 200명을 선정
조사된 평균값이 모집단을 대표하는 통계치라고 할 수 있는가?
표본이 적합하게 추출되었는지 평가하는 법
- 편의(bias)가 적은가: 표본으로부터 얻어지는 통계치(표본평균)의 기대값이 모수의 참값과 유사한가?
- 정확도(precision)가 높은가: 반복해서 표본 추출 시, 얼마나 유사한 값이 나오는가?
평균과 분산
- 같은 평균이라도 분산이 다르면 데이터 특성이 달라짐
평균값은 그 집단에서 가장 많이 존재하는 것이 아님
- 데이터: 1, 2, 2, 7
- 평균: 3
데이터의 중심척도
평균(mean)
- 표본이 적은 경우, 아주 큰 값이나 작은 값(outlier)에 민감한 추정치
- 중앙값이 평균보다 더 적합한 중심척도인 경우도 있음
중앙값(median)
- n개의 관측치를 크기순으로 배열했을 때, 중앙 위치에 놓이는 값
- 데이터 수가 작고 이상치(outlier)가 있을 때, 평균보다 더 정확한 모집단의 중심값이 됨
최빈값(mode)
- 전체 데이터 중, 가장 빈도(frequency)가 높은 값
- 데이터 수가 많아질수록 평균과 가까워짐
2. 데이터의 분산(산포정도)
어느 집단 분산이 클까?
- 평균만 아는 사람 vs 평균과 표준편차를 아는 사람
- 평균 연봉은 같지만 편차가 큰 경우, 편차가 적은 기업에 비해 초봉이 낮고 승진 시 월급이 높아짐
분산 공식
- 데이터 평균과 데이터간 거리 합으로 분산 계산
- 데이터: x
1, x2, …, xn - 평균: Xbar
- 편차: (x
1- xbar),(x2- xbar),…,(xn- xbar) - 편차들의 합: (x
1- xbar) + (x2- xbar) + … + (xn- xbar) = ?
- 데이터: x
- 데이터가 평균으로부터 대칭적으로 존재할 경우, 편차들의 합이 0 → **편차를 제곱하여 더함** - 분산 = 편차들의 제곱합을 (n-1)*로 나눔 - (n-1)로 나누는 이유: 자유도와 관련, 평균값으로 표본평균을 사용하므로 1개의 자유도를 잃게 되어 (n-1)로 나눔
표준편차
- (개별데이터값 - 평균값) 차이를 제곱하여 더하였으므로 값이 커지고 단위가 달라짐
→ 분산에 제곱근을 취하여 원래 단위로 복원 → 표준편차라고 부름
분산의 의미
- 분산: 데이터가 분포되어있는 정도
- 데이터에 대한 요약 정보 보완
- 평균값만으로는 데이터 상상이 어려움
3. 데이터와 빅데이터
데이터란?
- 모든 숫자를 데이터라고 할 수 있을까? No
- 데이터: 구조화된 데이터
- 다차원 배열(매트릭스)
- 각 열의 형식이 다른 표 or 스프레드시트
- 탭이나 텍스트파일 형식으로 저장
데이터화(Datafication)
- 기계가 읽어들일 수 있는 모든 것(숫자, 이미지, 텍스트)을 데이터로 변환하는 것
- 개인의 활동을 실시간으로 추적해 이를 예측분석이 가능한 수량화된 온라인 데이터로 변환하는 것을 의미
빅데이터란
- Volume(양)
- Velocity(속도)
- Variety(다양성)
4. 데이터 탐색의 첫걸음
통계치로 인사이트 얻기
- ㅇㅇ회사 공채에 합격하기 위해 합격자 평균 분석
- 사람들이 선호하는 기업 문화 알아보기
최적의 의사결정: 데이터탐색
- 공정에 대한 평균, 산포, 불량률 추정
- 품질 변동상황을 관리도(control chart)로 표현
- 공정에 발생하는 이상요인을 빨리 탐지하여 수정조치 → 불량 사전 예방
- 공정에서 정상범위 관리도 차트
- 중심선, 관리상한선, 관리하한선을 어떻게 정할 것인가?
숨겨진 패턴 분석: 분류
암과 정상 뇌 영상을 숫자화(데이터화)함
- 분류(암/정상)를 가장 잘 구분하는 변수를 찾고, 범주간 차이를 가장 잘 표현하는 새로운 함수를 구함
- 새로운 환자 영상을 보고 어느 범주에 더 가까운지를 판별하여 암 여부를 진단
두 범주가 잘 분류된다는 것: 두 범주가 겹치지 않으면서 두 범주 중심위치가 가능한 먼 것
트렌드 분석: 웹 마이닝
- 1년간 검색어 트렌드 분석
- Moving Average를 통한 트렌드 파악