데이터사이언스를 위한 통계학입문 1: Ⅲ. 데이터 시각화와 통계적 해석

setup, include
1
knitr::opts_chunk$set(echo = TRUE)
  • POSTECH에서 제공하는 MOOC 중, 데이터사이언스를 위한 통계학입문 Ⅰ 과정입니다.

Ⅲ. 데이터 시각화와 통계적 해석

1. 데이터 시각화

데이터 분석단계

  • 수집 → 정제 → 시각화 → 예측모형/분석

2. 그래프의 유용성과 오류

그래프의 유용성

  • 그래프는 데이터 시각화의 일종
  • 그래프의 올바른 해석은 데이터사이언티스트의 필수 능력이자 커뮤니케이션 도구
  • 히스토그램
    • 같은 분산이라도 데이터 분포를 더 잘 파악할 수 있음
    • 계급 구간 설정에 따라 히스토그램 그래프가 완전히 달라짐

데이터 시각화 주의할 점

  • 그래프 목적은 데이터를 분명하게 표현하는 것
    1. 그래프 작성 시, 축의 범위와 간격 등을 잘 정해야 함
    2. 그래프를 보는 사람의 수준을 고려해야 함
    3. 그래프 종류별 장단점을 정확히 파악하고 사용해야 함

퀴즈 오답

  1. 히스토그램을 통해 알 수 있는 것
    • 데이터의 분포 범위
    • 이상치(Outlier)의 존재 유무

3. 상자그림이 주는 정보와 해석

상자그림이 필요한 이유?

  • 평균과 분산(기술통계치)만으로는 부족함
    • 평균, 분산을 안다고 데이터가 어느 쪽에 더 많이 분포하는지 알 수 없음
    • 이상치 존재 여부를 알 수 없음
    • 데이터 분포 범위(최대값, 최소값)를 한눈에 알기 어려움

상자그림이 주는 정보

  • 한눈에 5가지 정보를 제공
    • 중앙값, 일사분위수, 삼사분위수, 최대값, 최소값
    • 데이터 분포의 대칭성, 치우침, 이상치를 쉽게 파악할 수 있음

상자그림 그리는 방법

  1. 데이터의 중앙값(median)을 찾는다.

    • 중앙값이란?
      • n개의 관측치를 오름차순으로 배열했을 때, 중앙 위치에 놓이는 값
      • 데이터 수가 작고 이상치가 있을 때, 평균보다 더 정확한 모집단의 중심값이 됨
  2. 일사분위수(Q1)와 삼사분위수(Q3)을 찾는다.

    • 일사분위수(Q1)
      • 데이터를 크기 순서로 배열했을 때, 25% 지점 값
    • 삼사분위수(Q3)
      • 데이터를 크기 순서로 배열했을 때, 75% 지점 값
  3. 일사분위수 ~ 삼사분위수를 상자로 그린다. (사분위범위)

  4. 최소값 ~ 일사분위수, 삼사분위수 ~ 최대값을 그린다.

  5. 이상치를 표시한다.

    • 일사분위로부터 -(1.5)*사분위범위를 넘는 관측치는 이상치로 표시
    • 삼사분위로부터 +(1.5)*사분위범위를 넘는 관측치는 이상치로 표시

요약

  • 상자그림은 다섯 가지 숫자로 데이터를 요약한 그래프
    • 가운데 상자는 Q1에서 Q1까지 그림
    • 상자 안의 선은 중앙값을 나타냄
    • 상자 밖 선은 최대값과 최소값까지 이어짐
    • 상자와 수염 밖 데이터는 이상치

4. 산점도와 상관관계: 트렌드 분석

산점도 필요 이유

  • 지금까지 히스토그램, 상자그림으로 변수 1개의 데이터 분포를 살펴봄
  • 두 변수 사이 관계를 아는 방법은?

산점도(Scatter plot)

  • 변수 간 관계 방향, 트렌드, 강도를 알 수 있음

  • 산점도의 x축과 y축은 독립변수와 종속변수로 이루어짐

    • 독립변수: 원인 역할을 하는 변수, X
    • 종속변수: 결과 관측 변수, Y
    • ex. 학점 - 공부 시간
  • 산점도로부터 알 수 있는 3가지

    • 트렌드: linear, curved, clusters, no pattern
    • 방향: positie, negative, no direction
    • 강도: how closely the points fit the trend

산점도 해석: 방향

  • 양의 상관관계(Positively associated)

    • 두 변수 X와 Y가 X값이 클 때 Y값도 큰 경향이 있고, X값이 작을 때 Y값도 작은 경향
  • 음의 상관관계(Negatively associated)

    • 두 변수 X와 Y가 X값이 클 때 Y값은 작은 경향이 있고, X값이 작을 때 Y값은 큰 경향

산점도 해석: 강도

  • 상관계수(Correlation, r)
    • r은 -1부터 +1까지 존재
    • +1에 가까울수록 강한 양의 상관관계
    • -1에 가까울수록 강한 음의 상관관계
    • 0은 가장 약한 상관관계(상관관계가 없음)
  • 산점도에서 의미하는 상관관계: 선형적인 상관관계만을 말함

정리

  • 산점도는 두 변수간 관계 방향, 형태, 강도를 살펴볼 수 있는 그래프
  • 상관계수(r)는 두 변수간 선형적인 상관관계의 강도를 나타냄
  • 산점도에서 선형모형(선형함수식)을 구현할 수 있음
Share