- 해당 자료는 ADsP 데이터분석 준전문가 2020 완전 개정판 요약본으로 저작권은 DATA EDU에 있습니다.
1장. 데이터의 이해
1절. 데이터와 정보
1. 데이터의 정의와 특성
데이터의 정의
- 데이터는 1646년 영군 문헌에 처음 등장, 라틴어인 dare(주다)의 과거분사형으로 주어진 것이라는 의미
- 데이터는 추론과 추정의 근거를 이루는 사실
- 단순한 객체로서의 가치뿐 아니라 다른 객체와의 상호관계 속에서 가치를 가짐
데이터의 특성
구분 특성 존재적 특성 객관적 사실(fact, raw material) 당위적 특성 추론·예측·전망·추정을 위한 근거(basis)
2. 데이터의 유형
구분 | 형태 | 예 | 특징 |
---|---|---|---|
정성적 데이터(qualitative data) | 언어, 문자 등 | 회사 매출 증가 | 저장·검색·분석에 많은 비용 소모 |
정량적 데이터(quantitative data) | 수치, 도형, 기호 등 | 나이, 몸무게, 주가 등 | 정형화된 데이터로 비용 소모 적음 |
3. 지식경영의 핵심 이슈
데이터는 지식경영의 핵심 이슈인 암묵지(tacit knowledge)와 형식지(explicit knowledge)의 상호 작용에 있어 중요한 역할을 함
구분 의미 예 특징 상호작용 암묵지 학습/경험으로 개인에 체화되어 있지만 드러나지 않는 지식 김장, 자전거 타기 사회적으로 중요하지만 공유 어려움 공통화, 내면화 형식지 문서/매뉴얼처럼 형상화된 지식 교과서, 비디오, DB 전달과 공유 용이 표출화, 연결화 - 암묵지: 개인에게 축적된 내면화(internalization)된 지식 → 조직의 지식으로 공통화(socialization)
- 형식지: 언어, 기호, 숫자로 표출화(externalization)된 지식 → 개인의 지식으로 연결화(combination)
4. 데이터와 정보의 관계
DIKW의 정의
구분 내용 데이터(data) 개별 데이터 자체로는 의미가 중요하지 않은 객관적 사실 정보(information) 데이터 가공, 처리와 데이터 간 연관관계 속에서 의미가 도출된 것 지식(knowledge) 도출된 정보를 구조화해 유의미한 정보 분류, 개인 경험과 결합시켜 고유의 지식으로 내재화된 것 지혜(wisdon) 지식의 축적과 아이디어가 결합된 창의적 산물 DIKW 피라미드
- 지혜: 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
i.e. A마트의 다른 상품도 B마트보다 저렴할 것이다. - 지식: 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물
i.e. 상대적으로 저렴한 A마트에서 연필을 사야겠다. - 정보: 데이터 가공 및 상관관계를 이해하여 패턴을 인식하고 의미를 부여한 데이터
i.e. A마트에서 파는 연필이 더 저렴하다. - 데이터: 존재형식을 불문하고, 타 데이터와 상관관계 있는 가공 전의 순수한 수치나 기호
: 연필은 A마트에서는 100원에, B마트에서는 200원에 판매된다.
- 지혜: 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
2절. 데이터베이스 정의와 특징
1. 용어의 연혁
- 1950년대: 미국, 군비상황 집중 관리를 위해 컴퓨터 도서관 설립 → 데이터의 기지(base)라는 뜻의 데이터베이스 탄생
- 1975년: 미국의 CAC가 KORSTIC을 통해 서비스되며 우리나라에서 데이터베이스 이용
- 1980년대 중반: 국내 데이터베이스 관련 기술의 연구 및 개발
2. 데이터베이스 정의
- 1차 개념 확대: 정형데이터 관리
- 2차 개념 확대: 빅데이터의 출현으로 비정형데이터 포함
3. 데이터베이스의 특징
- 데이터베이스의 일반적 특징
데이터베이스 특징 | 설명 |
---|---|
통합된(integrated) 데이터 | 동일한 내용의 데이터가 중복되지 않음, 데이터 중복은 관리상 부작용 초래 |
저장된(stored) 데이터 | 컴퓨터가 접근할 수 있는 저장 매체에 저장, 데이터베이스는 컴퓨터 기술 바탕 |
공용(shared) 데이터 | 여러 사용자가 서로 다른 목적으로 데이터 이용, 대용량화 & 복잡한 구조 |
변화되는(changable) 데이터 | 데이터베이스에 저장된 내용은 데이터베이스의 현 시점의 상태를 나타냄, 항상 변화하면서도 현재의 정확한 데이터 유지 필요 |
- 데이터베이스의 다양한 측면에서의 특징
- 정보 축적 및 전달
- 기계가독성: 일정 형식에 따라 컴퓨터 등 정보처리기기가 읽고 쓸 수 있음
- 검색가독성: 다양한 방법으로 필요한 정보 검색
- 원격조작성: 정보통신망을 통해 원거리에서도 즉시 온라인 이용
- 정보 이용
- 이용자의 정보 요구에 맞게 다양한 정보를 신속하게 획득
- 원하는 정보를 정확하고 경제적으로 찾아낼 수 있음
- 정보 관리
- 정보를 일정한 질서와 구조에 따라 정리, 저장, 검색, 관리할 수 있도록 하여 방대한 양의 정보를 체계적으로 축적
- 새로운 내용의 추가 또는 갱신이 용이
- 정보 기술 발전
- 정보처리, 검색·관리 소프트웨어, 관련된 하드웨어, 네트워크기술 발전 견인
- 경제·산업
- 정보 인프라적 특성
- 정보 축적 및 전달
3절. 데이터베이스의 활용
기업내부 데이터베이스
1980년대 기업내부 데이터베이스
OLTP(On-Line Transaction Processing)
호스트 컴퓨터와 온라인으로 접속된 여러 단말간 처리 형태의 하나
호스트 컴퓨터가 데이터베이스를 엑세스하고, 처리 결과를 바로 돌려보내는 형태
주문입력시스템 재고관리시스템 등 현업의 대부분 업무가 이 성격을 띔
OLAP(On-Line Analytical Processing)
다양한 비즈니스 관점에서 쉽고 빠르게 다차원적 데이터 접근하여 의사 결정에 활용할 수 있는 정보를 얻게 하는 기술
OLTP에서 처리된 트랜잭션 데이터로 다양한 분석 실행
OLTP가 데이터 갱신 위주라면, OLAP는 데이터 조회 위주 (비교 보기 p.69)
- 2000년대 기업내부 데이터베이스
- CRM(Customer Relationship Management)
- SCM(Supply Chain Management)
- 분야별 내부 데이터베이스
- 제조: ERP(Enterprise Resource Planning), BI(Business Intelligence), CRM, RTE(Real-Time Enterprise)
- 금융: EAI(Enterprise Application Integration), EDW(Enterprise Data Warehouse)
- 유통: KMS(Knowledge Management System), RFID(RF, Radio Frequency)
- 사회기반구조로서의 데이터베이스
- EDI(Electronic Data Interchange), VAN(Value Added Network), CALS(Commerce At Light Speed)
2장. 데이터의 가치와 미래
1절. 빅데이터의 이해
1. 빅데이터의 이해
관점에 따른 빅데이터의 정의
- 좁은 범위의 정의: 3V로 요약되는 데이터 자체의 특성 변화에 초점
- 중간 범위의 정의: 데이터 자체뿐 아니라 처리, 분석의 기술적 변화까지 포함
- 넓은 관점에서의 정의: 인재, 조직 변화까지 포함
가트너 그룹 더그 래니의 3V
- 양(Volume): 데이터 규모 측면 → 센싱 데이터, 비정형데이터
- 다양성(Variety): 데이터 유형과 소스 측면 → 정형, 비정형데이터(영상, 사진)
- 속도(Velocity): 대이터 수집과 처리 측면 → 원하는 데이터 추출 및 분석 속도
- PLUS, 가치(Value), 시각화(Visualization), 정확성(Veracity)
빅데이터 정의의 범주 및 효과
- 데이터 변화: 규모, 형태, 속도
- 기술 변화: 데이터 처리, 저장, 분석기술 및 아키텍처, 클라우드 컴퓨팅 활용
- 인재, 조직 변화: Data Scientist 같은 새로운 인재 필요, 데이터 중심 조직
2. 출현 배경과 변화
없던 것이 새로 등장한 것이 아니라, 기존의 것에서 변화된 것 - 3가지 출현 배경
출현 배경 | 내용 | |
---|---|---|
산업계 | 고객 데이터 축적 | 데이터에 숨은 가치를 발굴해 새로운 성장동력원 확보 |
학계 | 거대 데이터 활용, 과학 확산 | 거대 데이터를 다루는 학문이 많아지면서 필요한 기술 아키텍처 및 통계 도구 발전 |
기술 발전 | 관련 기술의 발달 | 디지털화, 저장 기술 발달, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 |
3. 빅데이터의 기능
비유
비유 대상 내용 산업혁명의 석탄, 철 제조업 ~ 서비스 분야 생산성을 끌어올려 사회 전반에 혁명적 변화를 가져올 것 21세기의 원유 경제 성장에 필요한 정보를 제공하여 산업 생산성을 한 단계 향상 시키고 기존에 없던 새 범주 산업을 만들어 낼 것 렌즈 현미경이 생물학 발전에 미친 영향만큼 데이터가 산업 발전에 영향을 미칠 것 플랫폼 공동 활용 목적으로 구축된 유무형의 구조물로써 다양한 서드파티 비즈니스에 활용되며 플랫폼 역할을 할 것
4. 빅데이터가 만드는 본질적 변화
- 과거에서 현재로
- 사전 처리 → 사후처리
- 표본조사 → 전수조사
- 질 → 양
- 인과관계 → 상관관계
2절. 빅데이터의 가치와 영향
1. 빅데이터의 가치
- 빅데이터 가치 산정이 어려운 이유
- 데이터 활용방식: 재사용, 재조합, 다목적용 데이터 개발
- 새로운 가치 창출: 기존에 없던 가치를 창출하여 가치 측정이 어려움
- 분석 기술 발전: 현재는 가치 없는 데이터가 추후 분석 기법 등장으로 큰 가치를 지닐 수 있음
2. 빅데이터의 영향
- 빅데이터가 미치는 영향
- 기업: 혁신, 경쟁력 제고, 생산성 향상 → 소비자 행동 분석, 시장 변동 예측
- 정부: 환경 탐색, 상황 분석, 미래 대응 → 기상, 인구 이동, 법제 데이터 등 수집
- 개인: 목적에 따른 활용 → 개인 인지도 향상에도 빅데이터가 활용
3절. 비즈니스 모델
1. 빅데이터 활용 사례
- 기업
- 구글: 사용자 로그 데이터를 활용한 검색엔진 개발, 기존 페이지랭크 알고리즘 혁신으로 검색 서비스 개선
- 월마트: 고객 구매패턴을 분석해 상품 진열에 활용
- 정부
- 실시간 교통정보 수집, 기후 정보, 지질 활동, 소방 서비스 등 국가 안전 확보를 위해 실시간 모니터링
- 개인
- 정치인: 선거 승리를 위해 사회관계망 분석 → 유세 지역 선정, 해당 지역 유권자에게 영향을 줄 수 있는 내용을 선정해 효과적인 선거 활동
- 가수: 팬들의 음악 청취 기록 분석을 통해 실제 공연에서 부를 노래 순서 선정
2. 빅데이터 활용 기본 테크닉
테크닉 종류와 예시
연관규칙학습
- 변인들 간 주목할 상관관계 확인
- 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
유형분석
- 문서 분류 또는 조직과 팀을 특성에 따라 분류할 때
- 이 사용자는 어떤 특성을 가진 집단에 속하는가?
유전자 알고리즘
- 최적화 필요한 문제의 해결책을 선택, 돌연변이 같은 매커니즘으로 점진적으로 진화(evolve)시키는 법
- 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
기계학습
- 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법
- 기존 시청 기록을 바탕으로, 시청자가 현재 보유한 영화 중 어떤 것을 가장 보고 싶어 할까?
회귀분석
- 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보며 두 변인 관계를 파악
- 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
감정분석
- 특정 주제에 관해 말하거나 글 쓴 사람의 감정 분석
- 새로운 환불 정책에 대한 고객 평가는?
소셜네트워크(사회관계망)분석
- 특정인과 다른 사람이 몇 촌 정도 관계인가를 파악, 영향력 있는 사람을 찾을 때 사용
- 고객들 간 관계망은 어떻게 구성되어 있나?
4절. 위기 요인과 통제 방안
1. 빅데이터 시대의 위기 요인
사생활 침해
- 내용: 개인정보 포함된 데이터가 목적 외에 사용될 경우 사생활 침해 + 사회적 위협으로 변형될 수 있음
- 예시: 여행사실을 트위트한 사람 집을 강도가 노리는 사례 → 익명화의 기술 발전 필요
책임 원칙 훼손
- 내용: 분석대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성 증가
- 예시: 범죄 예측 프로그램에 의해 범행을 저지르기 전 체포, 신용도와 무관하게 대출 거절
데이터 오용
- 내용: 빅데이터으로 한 예측은 항상 맞을 수 없음
- 예시: 적군 사망자 수를 전쟁 진척 상황 지표로 사용했으나, 적군 사망자 수가 과장되어 보고
2. 위기 요인에 따른 통제 방안
동의에서 책임으로
- 개인정보 제공자의 동의 → 개인정보 사용자의 책임
결과 기반 책임 원칙 고수
- 책임원칙 훼손 위기 요인에 대한 통제 방안
- 예측 자료에 의한 불이익을 당할 가능성을 최소화하는 장치 마련 필요
알고리즘 접근 허용
- 데이터 오용 위기요소에 대한 대응책 → 예측 알고리즘의 부당함을 반증할 수 있는 방법
5절. 미래의 빅데이터
1. 빅데이터 활용 3요소
- 기본 3요소
- 데이터: 모든 것을 데이터화(Datafication)하는 추세로, 목적없이 축적된 데이터를 통한 창의적인 분석이 가능
- 기술: 대용량 데이터를 빠르게 처리하기 위한 알고리즘의 진화, 스스로 학습하고 데이터를 처리할 수 있는 인공지능 기술 출현
- 인력: 빅데이터 처리 위한 데이터 사이언티스트와 알고리즈미스트의 역할 → 빅데이터의 다각적 분석을 통한 인사이트 도출이 중요해짐
3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
1절. 빅데이터 분석과 전략 인사이트
1. 빅데이터 열풍과 회의론
빅데이터 회의론은 실제 빅데이터 분석에서 찾을 수 있는 가치를 발굴하기도 전에 사전에 활용 자체를 차단해 버릴 수 있음
2. 빅데이터 회의론의 원인 및 진단
- 투자효과를 못 거둔 부정적 학습효과 → 과거 CRM
- 빅데이터 성공사례 중, 기존 분석 프로젝트를 포함한 것이 많음
3. ’Big’이 핵심이 아님
- 빅데이터 분석 가치
크기 이슈가 아니라, 어떤 시각과 통찰을 얻을 수 있는지가 중요
4. 전략적 통찰이 없는 분석의 함정
5. 일차원적 분석 vs 가치기반 분석
- 산업별 분석 애플리케이션
산업 | 일차원적 분석 애플리케이션 |
---|---|
금융 서비스 | 신용점수 산정, 사기 탐지, 가격 책정, 프로그램트레이딩, 클레임분석, 고객수익성분석 |
소매업 | 판촉, 매대 관리, 수요 예측, 재고 보충, 가격 및 제조 최적화 |
제조업 | 공급사슬 최적화, 수요 예측, 재고 보충, 보증서 분석, 맞춤형 상품 개발, 신상품 개발 |
운송업 | 일정 관리, 노선 배정, 수익 관리 |
헬스케어 | 약품 거래, 예비 진단, 질병 관리 |
병원 | 가격 책정, 고객 로열티, 수익 관리 |
에너지 | 트레이딩, 공급/수요 예측 |
커뮤니케이션 | 가격 계획 최적화, 고객 보유, 수요 예측, 생산능력 계획, 네트워크 최적화, 고객 수익성 관리 |
서비스 | 콜센터 직원 관리, 서비스-수익 사슬 관리 |
정부 | 사기 탐지, 사례 관리, 범죄 방지, 수익 최적화 |
온라인 | 웹 매트릭스, 사이트 설계 고객 추천 |
모든사업 | 성과관리 |
일차원적 분석의 문제점은 환경변화와 같은 큰 변화에 대응하기 어렵고, 새로운 기회를 포착하기 어렵다는 것
전략도출 가치기반 분석
- 해당 사업에 중요한 기회 발굴, 주요 경영진의 지원 얻기 가능
- 분석의 활용 범위를 더 넓고 전략적으로 변화시키는 것 필요
- 차별화를 위한 전략적 인사이트를 주는 가치기반 분석단계로
나아가야 함
2절. 전략 인사이트 도출에 필요한 역량
1. 데이터 사이언스
- 데이터사이언스는 데이터로부터 의미 있는 정보를 추출해내는 학문
- 비즈니스 성과를 좌우하는 핵심 이슈에 답하고, 사업의 성과를 견인할 수 있어야 함
2. 데이터 사이언스의 구성요소
- 데이터 사이언스의 영역
- Analytics: 수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링
- IT: 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우스, 고성능 컴퓨팅
- 비즈니스 분석: 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화
3. 데이터 사이언티스트 요구 역량
- Hard Skill
- 빅데이터에 관한 이론적 지식
- 분석 기술의 숙련
- Soft skill
- 통찰력 있는 분석
- 설득력 있는 전달
- 다분야간 협력
4. 데이터 사이언스: 과학과 인문의 교차로
스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 대화능력 등의 인문학적 요소가 필요
5. 전략적 통찰력과 인문학의
- 외부 환경 측면에서 본 인문학 열풍 이유
외부환경의 변화 | 내용 | 예시 |
---|---|---|
컨버전스 → 디버전스 | 단순세계화에서 복잡한 세계화로 변화 | 규모의 경제, 세계화, 표준화, 이성화 → 복잡한 세계, 다양성, 관계, 연결성, 창조성 |
생산 → 서비스 | 비즈니스 중심이 제품 생산에서 서비스로 이동 | 고장나지 않는 제품 → 뛰어난 서비스 |
생산 → 시장 창조 | 공급자 중심 기술 경쟁에서 무형자산 경쟁으로 변화 | 생산 기술 중심, 기술 중심 투자 → 패러다임에 근거한 시장 창조, 현지 사회와 문화에 관한 지식 |
3절. 빅데이터, 데이터 사이언스의 미래
1. 가치 패러다임 변화
- 과거: Digitalization, 아날로그 세상을 디지털화하는지가 가치 창출 원천
- 현재: Connection, 디지털화된 정보가 연결되기 시작하면서 효과적인 연결을 찾는 것이 성공 요인
- 미래: Agency, 복잡한 연결을 효과적이고 믿을 수 있게 관리하는 것이 중요
2. 데이터 사이언스의 한계
- 한계
- 분석과정에서는 가정 등 인간의 해석이 개입되는 단계가 반드시 존재
- 분석결과를 해석하는 사람에 따라 다른 결과가 도출
- 정량적인 분석이라고 할지라도 결국 가정에 근거
추가. 최신 빅데이터 상식
1. DMBS와 SQL
DMBS(Data Base Management System)
- 데이터베이스를 관리하여 응용프로그램들이 데이터베이스를 공유하며 사용하는 환경을 제공하는 소프트웨어
- 데이터베이스를 구축하는 틀, 데이터 검색, 저장 기능 등 제공
- 대표 시스템: 오라클, 인포믹스, 액세스
데이터베이스 관리 시스템의 종류
- 관계형 DBMS
- 데이터를 column과 row를 이루는 하나 이상의 테이블/관계로 정리
- Primary key가 각 row를 식별
- row는 레코드나 튜플로 불림
- 일반적으로 각 테이블/관계는 하나의 엔티티 타입(고객이나 제품과 같은)을 대표
- 객체지향 DMBS
- 일반적으로 사용되는 테이블 기반의 관계형DB와 다르게 정보를 ‘객체’ 형태로 표현하는 데이터베이스 모델
- 네트워크 DMBS
- 레코드들이 노드로, 레코드들 사이 관계가 간선으로 표현되는 그래프를 기반으로 하는 데이터베이스 모델
- 계층형 DMBS
- 트리 구조를 기반으로 하는 계층 데이터베이스 모델
- 관계형 DBMS
SQL(Structured Query Language)
- 데이터베이스에 접근할 수 있는 데이터베이스의 하부 언어
- 단순한 질의 기능뿐 아니라 데이터의 완전한 정의와 조작 기능을 갖춤
- 테이블 단위로 연산 수행, 영어 문장과 비슷한 구문으로 사용하기 쉬움
2. Data 관련 기술
개인정보 비식별 기술
데이터 셋에서 개인을 식별할 수 있는 요소를 전부/일부 삭제하거나 다른 값으로 대체하는 기술비식별 기술 내용 예시 데이터 마스킹 데이터 길이, 유형, 형식 유지한채, 새로운 데이터를 익명으로 생상 홍길동, 35세, 서울 거주, 한국대 재학 → 홍–, 35세, 서울 거주, –대학 재학 가명 처리 개인정보 주체 이름을 변경하는 기술, 변경 규칙이 노출되지 않아야 함 홍길동, 35세, 서울 거주, 한국대 재학 → 임꺽정, 30대, 서울 거주, 국내대 재학 총계처리 데이터의 총합값을 보임 임꺽정 180cm, 홍길동 170cm → 물리학과 학생 키 합: 350cm, 평균키 175cm 데이터값 삭제 필요 없는 값 또는 개인식별에 중요한 값을 삭제, 날짜 정보는 연단위 처리 홍길동, 35세, 서울 거주, 한국대 졸업 → 35세, 서울 거주, 주민번호 901206-1234567 → 90년대 생, 남자 데이터 범주화 데이터 값을 범주 값으로 변환하여 값 숨김 홍길동, 35세 → 홍씨, 30~40세 무결성과 레이크
데이터 무결성(Data integrity)
- 데이터 변경/수정 시 제한을 두어 데이터의 정확성을 보증
- 유형: 개체 무결성(Entity integrity), 참조 무결성(Referential integrity), 범위 무결성(Domain integrity)
데이터 레이크(Data Lake)
- 수많은 정보 속에서 의미 있는 내용을 찾기 위해 방식 상관 없이 데이터를 저장하는 시스템
- 대용량의 정형 및 비정형 데이터 저장, 접근이 쉬운 대규모의 저장소
- 주요 플랫폼: Apache Hadoop, Teredata Integrated Big Data Platform 1700
3. 빅데이터 분석 기술
Hadoop
- 여러 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술
- 분산파일 시스템(HDFS)을 통해 대용량 파일을 저장할 수 있는 기능 제공
- 하둡 에코시스템으로 하둡의 부족한 기능 보완
Apache Spark
- 실시간 분산형 컴퓨팅 플랫폼
- 스칼라로 작성되었으나, 스칼라, 자바, R, 파이썬, API 지원
- In-Memory 방식으로 하둡에 비해 처리속도가 빠름
Smart Factory
- 공장 내 설비와 기계에 사물인터넷이 설치 → 공정 데이터가 실시간으로 수집, 데이터에 기반한 의사결정
Machine Learning & Deep Learning
- 머신러닝: 인공지능 연구 분야 중 하나, 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현
- 딥러닝: 컴퓨터가 데이터를 이용해 스스로 합습하도록 인공신경망(Artificial Neural Natwork) 등 기술로 구축한 기계 학습 기술
4. 기타
- 데이터의 유형
<table>
<colgroup>
<col style="width: 33%" />
<col style="width: 33%" />
<col style="width: 33%" />
</colgroup>
<thead>
<tr class="header">
<th>유형</th>
<th>내용</th>
<th>예시</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td>정형데이터</td>
<td>형태(고정된 필드) 존재, 연산 가능, 주로 관계형 데이터베이스에 저장, 데이터 수집 난이도 낮고 형식이 정해져 처리 쉬움</td>
<td>관계형 데이터베이스, 스프레드시트, CSV</td>
</tr>
<tr class="even">
<td>반정형데이터</td>
<td>형태(스키마, 메타데이터) 존재, 연산 불가능, 주로 파일로 저장, 보통 API 형태로 제공되어 데이터 처리 기술(파싱) 필요</td>
<td>XML. HTML, JSON, 로그형태(웹로그, 센서데이터)</td>
</tr>
<tr class="odd">
<td>비정형데이터</td>
<td>형태 없음, 연산 불가능, 주로 NoSQL에 저장, 데이터 수집 난이도 높음, 텍스트 마이닝 혹은 파일일 경우 데이터 형태로 파싱이 필요해 수집 데이터 처리가 어려움</td>
<td>소셜데이터(트위터, 페이스북), (영상, 이미지, 음성, 텍스트)</td>
</tr>
</tbody>
</table>
- 참고: XML은 Extensible Markup Language의 약자로 다목적 마크업 언어를 이용, 인터넷에 연결된 시스템끼리 데이터를 쉽게 주고 받을 수 있게 함(HTML 한계를 극복할 목적으로 만들어짐)