1 | knitr::opts_chunk$set(echo = TRUE) |
- POSTECH에서 제공하는 MOOC 중, 데이터사이언스를 위한 통계학입문 Ⅰ 과정입니다.
Ⅲ. 데이터 시각화와 통계적 해석
1. 데이터 시각화
데이터 분석단계
- 수집 → 정제 → 시각화 → 예측모형/분석
2. 그래프의 유용성과 오류
그래프의 유용성
- 그래프는 데이터 시각화의 일종
- 그래프의 올바른 해석은 데이터사이언티스트의 필수 능력이자 커뮤니케이션 도구
- 히스토그램
- 같은 분산이라도 데이터 분포를 더 잘 파악할 수 있음
- 계급 구간 설정에 따라 히스토그램 그래프가 완전히 달라짐
데이터 시각화 주의할 점
- 그래프 목적은 데이터를 분명하게 표현하는 것
- 그래프 작성 시, 축의 범위와 간격 등을 잘 정해야 함
- 그래프를 보는 사람의 수준을 고려해야 함
- 그래프 종류별 장단점을 정확히 파악하고 사용해야 함
퀴즈 오답
- 히스토그램을 통해 알 수 있는 것
- 데이터의 분포 범위
- 이상치(Outlier)의 존재 유무
3. 상자그림이 주는 정보와 해석
상자그림이 필요한 이유?
- 평균과 분산(기술통계치)만으로는 부족함
- 평균, 분산을 안다고 데이터가 어느 쪽에 더 많이 분포하는지 알 수 없음
- 이상치 존재 여부를 알 수 없음
- 데이터 분포 범위(최대값, 최소값)를 한눈에 알기 어려움
상자그림이 주는 정보
- 한눈에 5가지 정보를 제공
- 중앙값, 일사분위수, 삼사분위수, 최대값, 최소값
- 데이터 분포의 대칭성, 치우침, 이상치를 쉽게 파악할 수 있음
상자그림 그리는 방법
데이터의 중앙값(median)을 찾는다.
- 중앙값이란?
- n개의 관측치를 오름차순으로 배열했을 때, 중앙 위치에 놓이는 값
- 데이터 수가 작고 이상치가 있을 때, 평균보다 더 정확한 모집단의 중심값이 됨
- 중앙값이란?
일사분위수(Q1)와 삼사분위수(Q3)을 찾는다.
- 일사분위수(Q1)
- 데이터를 크기 순서로 배열했을 때, 25% 지점 값
- 삼사분위수(Q3)
- 데이터를 크기 순서로 배열했을 때, 75% 지점 값
- 일사분위수(Q1)
일사분위수 ~ 삼사분위수를 상자로 그린다. (사분위범위)
최소값 ~ 일사분위수, 삼사분위수 ~ 최대값을 그린다.
이상치를 표시한다.
- 일사분위로부터 -(1.5)*사분위범위를 넘는 관측치는 이상치로 표시
- 삼사분위로부터 +(1.5)*사분위범위를 넘는 관측치는 이상치로 표시
요약
- 상자그림은 다섯 가지 숫자로 데이터를 요약한 그래프
- 가운데 상자는 Q1에서 Q1까지 그림
- 상자 안의 선은 중앙값을 나타냄
- 상자 밖 선은 최대값과 최소값까지 이어짐
- 상자와 수염 밖 데이터는 이상치
4. 산점도와 상관관계: 트렌드 분석
산점도 필요 이유
- 지금까지 히스토그램, 상자그림으로 변수 1개의 데이터 분포를 살펴봄
- 두 변수 사이 관계를 아는 방법은?
산점도(Scatter plot)
변수 간 관계 방향, 트렌드, 강도를 알 수 있음
산점도의 x축과 y축은 독립변수와 종속변수로 이루어짐
- 독립변수: 원인 역할을 하는 변수, X
- 종속변수: 결과 관측 변수, Y
- ex. 학점 - 공부 시간
산점도로부터 알 수 있는 3가지
- 트렌드: linear, curved, clusters, no pattern
- 방향: positie, negative, no direction
- 강도: how closely the points fit the trend
산점도 해석: 방향
양의 상관관계(Positively associated)
- 두 변수 X와 Y가 X값이 클 때 Y값도 큰 경향이 있고, X값이 작을 때 Y값도 작은 경향
음의 상관관계(Negatively associated)
- 두 변수 X와 Y가 X값이 클 때 Y값은 작은 경향이 있고, X값이 작을 때 Y값은 큰 경향
산점도 해석: 강도
- 상관계수(Correlation, r)
- r은 -1부터 +1까지 존재
- +1에 가까울수록 강한 양의 상관관계
- -1에 가까울수록 강한 음의 상관관계
- 0은 가장 약한 상관관계(상관관계가 없음)
- 산점도에서 의미하는 상관관계: 선형적인 상관관계만을 말함
정리
- 산점도는 두 변수간 관계 방향, 형태, 강도를 살펴볼 수 있는 그래프
- 상관계수(r)는 두 변수간 선형적인 상관관계의 강도를 나타냄
- 산점도에서 선형모형(선형함수식)을 구현할 수 있음