ADsP 자격증: Part01. 데이터 이해

1장. 데이터의 이해

1절. 데이터와 정보

1. 데이터의 정의와 특성

  • 데이터의 정의

    • 데이터는 1646년 영군 문헌에 처음 등장, 라틴어인 dare(주다)의 과거분사형으로 주어진 것이라는 의미
    • 데이터는 추론과 추정의 근거를 이루는 사실
    • 단순한 객체로서의 가치뿐 아니라 다른 객체와의 상호관계 속에서 가치를 가짐
  • 데이터의 특성

    구분 특성
    존재적 특성 객관적 사실(fact, raw material)
    당위적 특성 추론·예측·전망·추정을 위한 근거(basis)

2. 데이터의 유형

구분 형태 특징
정성적 데이터(qualitative data) 언어, 문자 등 회사 매출 증가 저장·검색·분석에 많은 비용 소모
정량적 데이터(quantitative data) 수치, 도형, 기호 등 나이, 몸무게, 주가 등 정형화된 데이터로 비용 소모 적음

3. 지식경영의 핵심 이슈

  • 데이터는 지식경영의 핵심 이슈인 암묵지(tacit knowledge)와 형식지(explicit knowledge)의 상호 작용에 있어 중요한 역할을 함

    구분 의미 특징 상호작용
    암묵지 학습/경험으로 개인에 체화되어 있지만 드러나지 않는 지식 김장, 자전거 타기 사회적으로 중요하지만 공유 어려움 공통화, 내면화
    형식지 문서/매뉴얼처럼 형상화된 지식 교과서, 비디오, DB 전달과 공유 용이 표출화, 연결화
    • 암묵지: 개인에게 축적된 내면화(internalization)된 지식 → 조직의 지식으로 공통화(socialization)
    • 형식지: 언어, 기호, 숫자로 표출화(externalization)된 지식 → 개인의 지식으로 연결화(combination)

4. 데이터와 정보의 관계

  • DIKW의 정의

    구분 내용
    데이터(data) 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실
    정보(information) 데이터 가공, 처리와 데이터 간 연관관계 속에서 의미가 도출된 것
    지식(knowledge) 도출된 정보를 구조화해 유의미한 정보 분류, 개인 경험과 결합시켜 고유의 지식으로 내재화된 것
    지혜(wisdon) 지식의 축적과 아이디어가 결합된 창의적 산물
  • DIKW 피라미드

    • 지혜: 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
      i.e. A마트의 다른 상품도 B마트보다 저렴할 것이다.
    • 지식: 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물
      i.e. 상대적으로 저렴한 A마트에서 연필을 사야겠다.
    • 정보: 데이터 가공 및 상관관계를 이해하여 패턴을 인식하고 의미를 부여한 데이터
      i.e. A마트에서 파는 연필이 더 저렴하다.
    • 데이터: 존재형식을 불문하고, 타 데이터와 상관관계 있는 가공 전의 순수한 수치나 기호
      : 연필은 A마트에서는 100원에, B마트에서는 200원에 판매된다.

2절. 데이터베이스 정의와 특징

1. 용어의 연혁

  • 1950년대: 미국, 군비상황 집중 관리를 위해 컴퓨터 도서관 설립 → 데이터의 기지(base)라는 뜻의 데이터베이스 탄생
  • 1975년: 미국의 CAC가 KORSTIC을 통해 서비스되며 우리나라에서 데이터베이스 이용
  • 1980년대 중반: 국내 데이터베이스 관련 기술의 연구 및 개발

2. 데이터베이스 정의

  • 1차 개념 확대: 정형데이터 관리
  • 2차 개념 확대: 빅데이터의 출현으로 비정형데이터 포함

3. 데이터베이스의 특징

  • 데이터베이스의 일반적 특징
데이터베이스 특징 설명
통합된(integrated) 데이터 동일한 내용의 데이터가 중복되지 않음, 데이터 중복은 관리상 부작용 초래
저장된(stored) 데이터 컴퓨터가 접근할 수 있는 저장 매체에 저장, 데이터베이스는 컴퓨터 기술 바탕
공용(shared) 데이터 여러 사용자가 서로 다른 목적으로 데이터 이용, 대용량화 & 복잡한 구조
변화되는(changable) 데이터 데이터베이스에 저장된 내용은 데이터베이스의 현 시점의 상태를 나타냄, 항상 변화하면서도 현재의 정확한 데이터 유지 필요
  • 데이터베이스의 다양한 측면에서의 특징
    • 정보 축적 및 전달
      • 기계가독성: 일정 형식에 따라 컴퓨터 등 정보처리기기가 읽고 쓸 수 있음
      • 검색가독성: 다양한 방법으로 필요한 정보 검색
      • 원격조작성: 정보통신망을 통해 원거리에서도 즉시 온라인 이용
    • 정보 이용
      • 이용자의 정보 요구에 맞게 다양한 정보를 신속하게 획득
      • 원하는 정보를 정확하고 경제적으로 찾아낼 수 있음
    • 정보 관리
      • 정보를 일정한 질서와 구조에 따라 정리, 저장, 검색, 관리할 수 있도록 하여 방대한 양의 정보를 체계적으로 축적
      • 새로운 내용의 추가 또는 갱신이 용이
    • 정보 기술 발전
      • 정보처리, 검색·관리 소프트웨어, 관련된 하드웨어, 네트워크기술 발전 견인
    • 경제·산업
      • 정보 인프라적 특성

3절. 데이터베이스의 활용

  • 기업내부 데이터베이스

    • 1980년대 기업내부 데이터베이스

      • OLTP(On-Line Transaction Processing)

      • 호스트 컴퓨터와 온라인으로 접속된 여러 단말간 처리 형태의 하나

      • 호스트 컴퓨터가 데이터베이스를 엑세스하고, 처리 결과를 바로 돌려보내는 형태

      • 주문입력시스템 재고관리시스템 등 현업의 대부분 업무가 이 성격을 띔

      • OLAP(On-Line Analytical Processing)

      • 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적 데이터 접근하여 의사 결정에 활용할 수 있는 정보를 얻게 하는 기술

      • OLTP에서 처리된 트랜잭션 데이터로 다양한 분석 실행

OLTP가 데이터 갱신 위주라면, OLAP는 데이터 조회 위주 (비교 보기 p.69)

  • 2000년대 기업내부 데이터베이스
    • CRM(Customer Relationship Management)
    • SCM(Supply Chain Management)
  • 분야별 내부 데이터베이스
    • 제조: ERP(Enterprise Resource Planning), BI(Business Intelligence), CRM, RTE(Real-Time Enterprise)
    • 금융: EAI(Enterprise Application Integration), EDW(Enterprise Data Warehouse)
    • 유통: KMS(Knowledge Management System), RFID(RF, Radio Frequency)
  • 사회기반구조로서의 데이터베이스
    • EDI(Electronic Data Interchange), VAN(Value Added Network), CALS(Commerce At Light Speed)

2장. 데이터의 가치와 미래

1절. 빅데이터의 이해

1. 빅데이터의 이해

  • 관점에 따른 빅데이터의 정의

    • 좁은 범위의 정의: 3V로 요약되는 데이터 자체의 특성 변화에 초점
    • 중간 범위의 정의: 데이터 자체뿐 아니라 처리, 분석의 기술적 변화까지 포함
    • 넓은 관점에서의 정의: 인재, 조직 변화까지 포함
  • 가트너 그룹 더그 래니의 3V

    • 양(Volume): 데이터 규모 측면 → 센싱 데이터, 비정형데이터
    • 다양성(Variety): 데이터 유형과 소스 측면 → 정형, 비정형데이터(영상, 사진)
    • 속도(Velocity): 대이터 수집과 처리 측면 → 원하는 데이터 추출 및 분석 속도
    • PLUS, 가치(Value), 시각화(Visualization), 정확성(Veracity)
  • 빅데이터 정의의 범주 및 효과

    • 데이터 변화: 규모, 형태, 속도
    • 기술 변화: 데이터 처리, 저장, 분석기술 및 아키텍처, 클라우드 컴퓨팅 활용
    • 인재, 조직 변화: Data Scientist 같은 새로운 인재 필요, 데이터 중심 조직

2. 출현 배경과 변화

없던 것이 새로 등장한 것이 아니라, 기존의 것에서 변화된 것 - 3가지 출현 배경

출현 배경 내용
산업계 고객 데이터 축적 데이터에 숨은 가치를 발굴해 새로운 성장동력원 확보
학계 거대 데이터 활용, 과학 확산 거대 데이터를 다루는 학문이 많아지면서 필요한 기술 아키텍처 및 통계 도구 발전
기술 발전 관련 기술의 발달 디지털화, 저장 기술 발달, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅

3. 빅데이터의 기능

  • 비유

    비유 대상 내용
    산업혁명의 석탄, 철 제조업 ~ 서비스 분야 생산성을 끌어올려 사회 전반에 혁명적 변화를 가져올 것
    21세기의 원유 경제 성장에 필요한 정보를 제공하여 산업 생산성을 한 단계 향상 시키고 기존에 없던 새 범주 산업을 만들어 낼 것
    렌즈 현미경이 생물학 발전에 미친 영향만큼 데이터가 산업 발전에 영향을 미칠 것
    플랫폼 공동 활용 목적으로 구축된 유무형의 구조물로써 다양한 서드파티 비즈니스에 활용되며 플랫폼 역할을 할 것

4. 빅데이터가 만드는 본질적 변화

  • 과거에서 현재로
    • 사전 처리 → 사후처리
    • 표본조사 → 전수조사
    • 질 → 양
    • 인과관계 → 상관관계

2절. 빅데이터의 가치와 영향

1. 빅데이터의 가치

  • 빅데이터 가치 산정이 어려운 이유
    • 데이터 활용방식: 재사용, 재조합, 다목적용 데이터 개발
    • 새로운 가치 창출: 기존에 없던 가치를 창출하여 가치 측정이 어려움
    • 분석 기술 발전: 현재는 가치 없는 데이터가 추후 분석 기법 등장으로 큰 가치를 지닐 수 있음

2. 빅데이터의 영향

  • 빅데이터가 미치는 영향
    • 기업: 혁신, 경쟁력 제고, 생산성 향상 → 소비자 행동 분석, 시장 변동 예측
    • 정부: 환경 탐색, 상황 분석, 미래 대응 → 기상, 인구 이동, 법제 데이터 등 수집
    • 개인: 목적에 따른 활용 → 개인 인지도 향상에도 빅데이터가 활용

3절. 비즈니스 모델

1. 빅데이터 활용 사례

  • 기업
    • 구글: 사용자 로그 데이터를 활용한 검색엔진 개발, 기존 페이지랭크 알고리즘 혁신으로 검색 서비스 개선
    • 월마트: 고객 구매패턴을 분석해 상품 진열에 활용
  • 정부
    • 실시간 교통정보 수집, 기후 정보, 지질 활동, 소방 서비스 등 국가 안전 확보를 위해 실시간 모니터링
  • 개인
    • 정치인: 선거 승리를 위해 사회관계망 분석 → 유세 지역 선정, 해당 지역 유권자에게 영향을 줄 수 있는 내용을 선정해 효과적인 선거 활동
    • 가수: 팬들의 음악 청취 기록 분석을 통해 실제 공연에서 부를 노래 순서 선정

2. 빅데이터 활용 기본 테크닉

  • 테크닉 종류와 예시

    • 연관규칙학습

      • 변인들 간 주목할 상관관계 확인
      • 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
    • 유형분석

      • 문서 분류 또는 조직과 팀을 특성에 따라 분류할 때
      • 이 사용자는 어떤 특성을 가진 집단에 속하는가?
    • 유전자 알고리즘

      • 최적화 필요한 문제의 해결책을 선택, 돌연변이 같은 매커니즘으로 점진적으로 진화(evolve)시키는 법
      • 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
    • 기계학습

      • 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법
      • 기존 시청 기록을 바탕으로, 시청자가 현재 보유한 영화 중 어떤 것을 가장 보고 싶어 할까?
    • 회귀분석

      • 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보며 두 변인 관계를 파악
      • 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
    • 감정분석

      • 특정 주제에 관해 말하거나 글 쓴 사람의 감정 분석
      • 새로운 환불 정책에 대한 고객 평가는?
    • 소셜네트워크(사회관계망)분석

      • 특정인과 다른 사람이 몇 촌 정도 관계인가를 파악, 영향력 있는 사람을 찾을 때 사용
      • 고객들 간 관계망은 어떻게 구성되어 있나?

4절. 위기 요인과 통제 방안

1. 빅데이터 시대의 위기 요인

  • 사생활 침해

    • 내용: 개인정보 포함된 데이터가 목적 외에 사용될 경우 사생활 침해 + 사회적 위협으로 변형될 수 있음
    • 예시: 여행사실을 트위트한 사람 집을 강도가 노리는 사례 → 익명화의 기술 발전 필요
  • 책임 원칙 훼손

    • 내용: 분석대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성 증가
    • 예시: 범죄 예측 프로그램에 의해 범행을 저지르기 전 체포, 신용도와 무관하게 대출 거절
  • 데이터 오용

    • 내용: 빅데이터으로 한 예측은 항상 맞을 수 없음
    • 예시: 적군 사망자 수를 전쟁 진척 상황 지표로 사용했으나, 적군 사망자 수가 과장되어 보고

2. 위기 요인에 따른 통제 방안

  • 동의에서 책임으로

    • 개인정보 제공자의 동의 → 개인정보 사용자의 책임
  • 결과 기반 책임 원칙 고수

    • 책임원칙 훼손 위기 요인에 대한 통제 방안
    • 예측 자료에 의한 불이익을 당할 가능성을 최소화하는 장치 마련 필요
  • 알고리즘 접근 허용

    • 데이터 오용 위기요소에 대한 대응책 → 예측 알고리즘의 부당함을 반증할 수 있는 방법

5절. 미래의 빅데이터

1. 빅데이터 활용 3요소

  • 기본 3요소
    • 데이터: 모든 것을 데이터화(Datafication)하는 추세로, 목적없이 축적된 데이터를 통한 창의적인 분석이 가능
    • 기술: 대용량 데이터를 빠르게 처리하기 위한 알고리즘의 진화, 스스로 학습하고 데이터를 처리할 수 있는 인공지능 기술 출현
    • 인력: 빅데이터 처리 위한 데이터 사이언티스트와 알고리즈미스트의 역할 → 빅데이터의 다각적 분석을 통한 인사이트 도출이 중요해짐

3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

1절. 빅데이터 분석과 전략 인사이트

1. 빅데이터 열풍과 회의론

빅데이터 회의론은 실제 빅데이터 분석에서 찾을 수 있는 가치를 발굴하기도 전에 사전에 활용 자체를 차단해 버릴 수 있음

2. 빅데이터 회의론의 원인 및 진단

  • 투자효과를 못 거둔 부정적 학습효과 → 과거 CRM
  • 빅데이터 성공사례 중, 기존 분석 프로젝트를 포함한 것이 많음

3. ’Big’이 핵심이 아님

  • 빅데이터 분석 가치
    크기 이슈가 아니라, 어떤 시각과 통찰을 얻을 수 있는지가 중요

4. 전략적 통찰이 없는 분석의 함정

5. 일차원적 분석 vs 가치기반 분석

  • 산업별 분석 애플리케이션
산업 일차원적 분석 애플리케이션
금융 서비스 신용점수 산정, 사기 탐지, 가격 책정, 프로그램트레이딩, 클레임분석, 고객수익성분석
소매업 판촉, 매대 관리, 수요 예측, 재고 보충, 가격 및 제조 최적화
제조업 공급사슬 최적화, 수요 예측, 재고 보충, 보증서 분석, 맞춤형 상품 개발, 신상품 개발
운송업 일정 관리, 노선 배정, 수익 관리
헬스케어 약품 거래, 예비 진단, 질병 관리
병원 가격 책정, 고객 로열티, 수익 관리
에너지 트레이딩, 공급/수요 예측
커뮤니케이션 가격 계획 최적화, 고객 보유, 수요 예측, 생산능력 계획, 네트워크 최적화, 고객 수익성 관리
서비스 콜센터 직원 관리, 서비스-수익 사슬 관리
정부 사기 탐지, 사례 관리, 범죄 방지, 수익 최적화
온라인 웹 매트릭스, 사이트 설계 고객 추천
모든사업 성과관리
  • 일차원적 분석의 문제점은 환경변화와 같은 큰 변화에 대응하기 어렵고, 새로운 기회를 포착하기 어렵다는 것

  • 전략도출 가치기반 분석

    • 해당 사업에 중요한 기회 발굴, 주요 경영진의 지원 얻기 가능
    • 분석의 활용 범위를 더 넓고 전략적으로 변화시키는 것 필요
    • 차별화를 위한 전략적 인사이트를 주는 가치기반 분석단계로
      나아가야 함

2절. 전략 인사이트 도출에 필요한 역량

1. 데이터 사이언스

  • 데이터사이언스는 데이터로부터 의미 있는 정보를 추출해내는 학문
  • 비즈니스 성과를 좌우하는 핵심 이슈에 답하고, 사업의 성과를 견인할 수 있어야 함

2. 데이터 사이언스의 구성요소

  • 데이터 사이언스의 영역
    • Analytics: 수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링
    • IT: 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우스, 고성능 컴퓨팅
    • 비즈니스 분석: 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화

3. 데이터 사이언티스트 요구 역량

  • Hard Skill
    • 빅데이터에 관한 이론적 지식
    • 분석 기술의 숙련
  • Soft skill
    • 통찰력 있는 분석
    • 설득력 있는 전달
    • 다분야간 협력

4. 데이터 사이언스: 과학과 인문의 교차로

스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 대화능력 등의 인문학적 요소가 필요

5. 전략적 통찰력과 인문학의

  • 외부 환경 측면에서 본 인문학 열풍 이유
외부환경의 변화 내용 예시
컨버전스 → 디버전스 단순세계화에서 복잡한 세계화로 변화 규모의 경제, 세계화, 표준화, 이성화 → 복잡한 세계, 다양성, 관계, 연결성, 창조성
생산 → 서비스 비즈니스 중심이 제품 생산에서 서비스로 이동 고장나지 않는 제품 → 뛰어난 서비스
생산 → 시장 창조 공급자 중심 기술 경쟁에서 무형자산 경쟁으로 변화 생산 기술 중심, 기술 중심 투자 → 패러다임에 근거한 시장 창조, 현지 사회와 문화에 관한 지식

3절. 빅데이터, 데이터 사이언스의 미래

1. 가치 패러다임 변화

  • 과거: Digitalization, 아날로그 세상을 디지털화하는지가 가치 창출 원천
  • 현재: Connection, 디지털화된 정보가 연결되기 시작하면서 효과적인 연결을 찾는 것이 성공 요인
  • 미래: Agency, 복잡한 연결을 효과적이고 믿을 수 있게 관리하는 것이 중요

2. 데이터 사이언스의 한계

  • 한계
    • 분석과정에서는 가정 등 인간의 해석이 개입되는 단계가 반드시 존재
    • 분석결과를 해석하는 사람에 따라 다른 결과가 도출
    • 정량적인 분석이라고 할지라도 결국 가정에 근거

추가. 최신 빅데이터 상식

1. DMBS와 SQL

  • DMBS(Data Base Management System)

    • 데이터베이스를 관리하여 응용프로그램들이 데이터베이스를 공유하며 사용하는 환경을 제공하는 소프트웨어
    • 데이터베이스를 구축하는 틀, 데이터 검색, 저장 기능 등 제공
    • 대표 시스템: 오라클, 인포믹스, 액세스
  • 데이터베이스 관리 시스템의 종류

    • 관계형 DBMS
      • 데이터를 column과 row를 이루는 하나 이상의 테이블/관계로 정리
      • Primary key가 각 row를 식별
      • row는 레코드나 튜플로 불림
      • 일반적으로 각 테이블/관계는 하나의 엔티티 타입(고객이나 제품과 같은)을 대표
    • 객체지향 DMBS
      • 일반적으로 사용되는 테이블 기반의 관계형DB와 다르게 정보를 ‘객체’ 형태로 표현하는 데이터베이스 모델
    • 네트워크 DMBS
      • 레코드들이 노드로, 레코드들 사이 관계가 간선으로 표현되는 그래프를 기반으로 하는 데이터베이스 모델
    • 계층형 DMBS
      • 트리 구조를 기반으로 하는 계층 데이터베이스 모델
  • SQL(Structured Query Language)

    • 데이터베이스에 접근할 수 있는 데이터베이스의 하부 언어
    • 단순한 질의 기능뿐 아니라 데이터의 완전한 정의와 조작 기능을 갖춤
    • 테이블 단위로 연산 수행, 영어 문장과 비슷한 구문으로 사용하기 쉬움

2. Data 관련 기술

  • 개인정보 비식별 기술
    데이터 셋에서 개인을 식별할 수 있는 요소를 전부/일부 삭제하거나 다른 값으로 대체하는 기술

    비식별 기술 내용 예시
    데이터 마스킹 데이터 길이, 유형, 형식 유지한채, 새로운 데이터를 익명으로 생상 홍길동, 35세, 서울 거주, 한국대 재학 → 홍–, 35세, 서울 거주, –대학 재학
    가명 처리 개인정보 주체 이름을 변경하는 기술, 변경 규칙이 노출되지 않아야 함 홍길동, 35세, 서울 거주, 한국대 재학 → 임꺽정, 30대, 서울 거주, 국내대 재학
    총계처리 데이터의 총합값을 보임 임꺽정 180cm, 홍길동 170cm → 물리학과 학생 키 합: 350cm, 평균키 175cm
    데이터값 삭제 필요 없는 값 또는 개인식별에 중요한 값을 삭제, 날짜 정보는 연단위 처리 홍길동, 35세, 서울 거주, 한국대 졸업 → 35세, 서울 거주, 주민번호 901206-1234567 → 90년대 생, 남자
    데이터 범주화 데이터 값을 범주 값으로 변환하여 값 숨김 홍길동, 35세 → 홍씨, 30~40세
  • 무결성과 레이크

    • 데이터 무결성(Data integrity)

      • 데이터 변경/수정 시 제한을 두어 데이터의 정확성을 보증
      • 유형: 개체 무결성(Entity integrity), 참조 무결성(Referential integrity), 범위 무결성(Domain integrity)
    • 데이터 레이크(Data Lake)

      • 수많은 정보 속에서 의미 있는 내용을 찾기 위해 방식 상관 없이 데이터를 저장하는 시스템
      • 대용량의 정형 및 비정형 데이터 저장, 접근이 쉬운 대규모의 저장소
      • 주요 플랫폼: Apache Hadoop, Teredata Integrated Big Data Platform 1700

3. 빅데이터 분석 기술

  • Hadoop

    • 여러 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술
    • 분산파일 시스템(HDFS)을 통해 대용량 파일을 저장할 수 있는 기능 제공
    • 하둡 에코시스템으로 하둡의 부족한 기능 보완
  • Apache Spark

    • 실시간 분산형 컴퓨팅 플랫폼
    • 스칼라로 작성되었으나, 스칼라, 자바, R, 파이썬, API 지원
    • In-Memory 방식으로 하둡에 비해 처리속도가 빠름
  • Smart Factory

    • 공장 내 설비와 기계에 사물인터넷이 설치 → 공정 데이터가 실시간으로 수집, 데이터에 기반한 의사결정
  • Machine Learning & Deep Learning

    • 머신러닝: 인공지능 연구 분야 중 하나, 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현
    • 딥러닝: 컴퓨터가 데이터를 이용해 스스로 합습하도록 인공신경망(Artificial Neural Natwork) 등 기술로 구축한 기계 학습 기술

4. 기타

  • 데이터의 유형
<table>
<colgroup>
<col style="width: 33%" />
<col style="width: 33%" />
<col style="width: 33%" />
</colgroup>
<thead>
<tr class="header">
<th>유형</th>
<th>내용</th>
<th>예시</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td>정형데이터</td>
<td>형태(고정된 필드) 존재, 연산 가능, 주로 관계형 데이터베이스에 저장, 데이터 수집 난이도 낮고 형식이 정해져 처리 쉬움</td>
<td>관계형 데이터베이스, 스프레드시트, CSV</td>
</tr>
<tr class="even">
<td>반정형데이터</td>
<td>형태(스키마, 메타데이터) 존재, 연산 불가능, 주로 파일로 저장, 보통 API 형태로 제공되어 데이터 처리 기술(파싱) 필요</td>
<td>XML. HTML, JSON, 로그형태(웹로그, 센서데이터)</td>
</tr>
<tr class="odd">
<td>비정형데이터</td>
<td>형태 없음, 연산 불가능, 주로 NoSQL에 저장, 데이터 수집 난이도 높음, 텍스트 마이닝 혹은 파일일 경우 데이터 형태로 파싱이 필요해 수집 데이터 처리가 어려움</td>
<td>소셜데이터(트위터, 페이스북), (영상, 이미지, 음성, 텍스트)</td>
</tr>
</tbody>
</table>
  • 참고: XML은 Extensible Markup Language의 약자로 다목적 마크업 언어를 이용, 인터넷에 연결된 시스템끼리 데이터를 쉽게 주고 받을 수 있게 함(HTML 한계를 극복할 목적으로 만들어짐)
Share