- 해당 자료는 ADsP 데이터분석 준전문가 2020 완전 개정판 요약본으로 저작권은 DATA EDU에 있습니다.
1장. 데이터 분석 기획의 이해
1절. 분석기획 방향성 도출
1. 분석기획의 특징
- 분석기획이란?
- 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출하도록 관리할 방안을 사전에 계획하는 작업
- 데이터 사이언티스트의 역량
- Math & Statistics
- Information Technology
- Domain Knowledge
2. 분석 대상과 방법
- 분석 대상(What), 분석 방법(How) 따라 4가지로 나뉘어짐
- Optimization(최적화): 분석 대상 & 분석 방법 모두 앎
- Solution(솔루션): 분석 대상 앎 & 분석 방법 모름
- Insight(통찰): 분석 대상 모름 & 분석 방법 앎
- Discovery(발견): 분석 대상 모름 & 분석 방법 모름
3. 목표 시점별 분석 기획 방안
- 과제 중심적 접근 방식: 당면 과제를 빠르게 해결하는 방식
- 장기적인 마스터 플랜 방식: 지속적인 분석 내재화를 위한 방식
- 분석 기획에서는 문제해결을 위한 단기적 접근방식과 분석과제 정의를 위한 중장기적인 마스터 플랜 접근방식을 융합하는 것이 중요
- 목표 시점별 분석 기획 방안
당면한 분석 주제 해결(과제 단위) | 지속적 분석 문화 내재화(마스터 플랜 단위) | |
---|---|---|
Speed & Test | 1차 목표 | Accuracy & Deploy |
Quick & Win | 과제 유형 | Long Term View |
Problem Solving | 접근 방식 | Problem Definition |
- 의미 있는 분석을 위해서는 분석 기술, IT 및 프로그래밍, 분석 주제에 관한 도메인 전문성, 의사 소통이 중요
- 분석대상 및 방식에 따른 다양한 분석 주제를 과제 단위 또는 마스터 플랜 단위로 도출할 수 있어야 함
4. 분석 기획 시 고려사항
가용 데이터(Available Data)
- 분석을 위한 데이터 확보가 우선적이며, 유형 분석이 선행되어야 함
- 데이터 유형에 따라 적용 가능한 솔루션 및 분석 방법이 다르기 때문
적절한 활용 방안과 유즈 케이스(Proper Business Use Case)
- 분석을 통해 가치가 창출될 수 있음
- ‘바퀴를 재발명하지 마라’ 기존에 구현된 유사 분석 시나리오와 솔루션을 최대한 활용
장애요소에 대한 사전계획 수립(Low Barrier Of Execution
- 일회성 분석에 그치지 않고 조직의 역량으로 내재화 필요
- 충분하고 계속적인 교육 및 활용방안 등의 변화 관리가 고려되어야함
2절. 분석 방법론
1. 분석 방법론 개요
데이터 분석이 기업 내 효과적으로 정착하기 위해서는 절차와 방법이 정리된 데이터 분석 방법론 수립 필요
프로젝트는 일정한 수준의 품질을 갖춘 산출물과 성공 가능성을 확보할 수 있어야 함 (개인의 역량이나 조직의 우연한 성공에 기인하면 안 됨)
상체한 절차(Procedures), 방법(Methods), 도구와 기법(Tools&Techniques), 템플릿과 산출물(Templates&Options)로 구성되어 어느 정도 지식으로 활용할 수 있어야 함
데이터 기반 의사결정의 필요성
- 경험과 감에 따른 의사결정 → 데이터 기반 의사결정
- 기업의 합리적 의사결정을 막는 장애요소
- 고정관념(Stereotype), 편향된 생각(Bias), 프레이밍
효과(Framing Effect, 문제 표현 방식에 따라 동일한 사건임에도
판단이나 선택이 달라지는 현상)
- 고정관념(Stereotype), 편향된 생각(Bias), 프레이밍
방법론의 생성 과정
암묵지 → (형식화) → 형식지 → (체계화) → 방법론 → (내재화) → 암묵지방법론 적용 업무 특성에 따른 모델
폭포수 모델(Waterfall Model)
- 단계를 순차적으로 진행하는 방법, 이전 단계가 완료되어야 다음 단계 진행 가능
- 문제 발결 시 피드백 과정이 수행됨
- 기존 IT의 SW 개발 방식
프로토타임 모델(Prototype Model)
- 폭포수 모델 단점을 보환하기 위해 점진적으로 시스템을 개발해가는 접근 방식
- 고객 요구를 완전히 이해하지 못하거나 완벽한 요구 분석의 어려움을 해결하기 위한 방법
- 일부분을 우선 개발하여 사용자에게 제공
- 시험 사용 후, 사용자 요구를 분석하여 요구 정당성을 점검하고 개선 작업을 진행
나선형 모델(Spiral Model)
- 반복을 통해 점증적으로 개발하는 방법
- 처음 시도하는 프로젝트에는 용이하나, 관리 체계를 갖추지 못하면 복잡도 상승
- 방법론의 구성
단계 | 최상위 계층으로서 프로세스 그룹을 통해 완성된 단계별 산출물 생성, 각 단계는 기준선으로 설정되어 관리되어야 함, 버전관리 등으로 통제 | → 단계별 완료 보고서 |
태스크 | 단계를 구성하는 단위 활동으로써 물리적 또는 논리적 단위로 품질검토의 항목이 됨 | → 보고서 |
스탭 | WBS(Work Breakdown Structure)의 워크 패키지에 해당, 입력자료/처리 및 도구/출력자료로 구성된 단위 프로세스 | → 보고서 구성요소 |
2. KDD 분석 방법론
KDD(Knowledge Discovery in Databases)
- 프로파일링 기술 기반으로 데이터에서 통계적 패턴이나 지식을 찾는 데 활용할 수 있도록 정리한 데이터 마이닝 프로세스
- 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 가짐
KDD 분석 절차
[Data] → 1. Selection → [Target Data] → 2. Preprocessing
→ [Preprocessed Data] → 3. Transformation → [Transformed
Data] → 4.Data Mining → [Patterns] → 5. Interpretation /
Eveluation → [Knowledge]
- 데이터셋 선택(Selection)
- 데이터셋 선택에 앞서 분석 대상 비즈니스 도메인에 대한 이해와 프로젝트
목표 설정이 필수 - 데이터베이스 또는 원시 데이터에서 분석에 필요한
데이터를 선택하는 단계 - 데이터마이닝에 필요한 목표데이터(target data)를
구성하여 분석에 활용
데이터 전처리(Preprocessing)
- 데이터셋을 정제하는 단계
- 잡음(Noise), 이상치(Outlier), 결측치(Missing Value)를 식별하고 제거하거나 의미 있는 데이터로 재처리
- 전처리 단계에서 추가로 요구되는 데이터셋이 필요한 경우, 데이터 선택 프로세스를 재실행
데이터 변환(Transformation)
- 데이터 전처리 과정을 통해 정제된 데이터에 분석 목적에 맞는 변수 생성, 선택
- 데이터 차원을 축소하여 효율적으로 데이터 마이닝 하도록 변경하는 단계
- 학습용 데이터(training data)와 검증용 데이터(test data)로 데이터를 분리하는 단계
데이터 마이닝(Data Mining)
- 학습용 데이터를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고 적절한 알고리즘으로 데이터 마이닝 작업을 실행
- 필요에 따라 데이터 전처리와 데이터 변환 프로세스를 추가로 실행
데이터 마이닝 결과 평가(Interpretation / Evaluation)
- 데이터 마이닝 결과에 대한 해석과 평가, 분석 목적과의 일치성 확인
- 데이터 마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련 단계
- 필요에 따라 데이터 선택 프로세스에서 데이터 마이닝 프로세스를 반복 수행
3. CRISP-DM 분석 방법론
CRISP-DM(Cross Industy Standard Process for Data Mining)
- 5개 업체가 주도: Daimler-Chrysler, SPSS, NCR, Teradata, OHRA
- 계층적 프로세스 모델로써 4개 레벨로 구성됨
CRISP-DM의 4레벨 구조
- Phases(단계) → Generic Tasks(일반화 태스크) → Specialized Task(세분화 태스크) → Process Instances(프로세스 실행)
CRISP-DM의 6단계 프로세스
각 단계는 단방향으로 구성되지 않고, 단계 간 피드백을 통해 단계별 완성도를 높이게 되어 있음
단계 내용 수행업무 1. 업무 이해 프로젝트 목적과 요구사항을 이해, 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획을 수립 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 2. 데이터 이해 데이터 수집하고 데이터 속성 이해, 데이터 품질 문제점 식별, 숨겨진 인사이트 발견 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 3. 데이터 준비 분석을 위해 수진된 데이터에서 분석기법에 적합한 데이터 편성 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 4. 모델링 다양한 모델링 기법과 알고리즘 선택, 파라미터 최적화, 데이터셋이 추가로 필요한 경우 준비 단계 반복 수행, 테스트용 데이터셋을 평가해 모델의 과적합 문제 확인 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가 5. 평가 모델링 결과가 프로젝트 목적에 부합하는지 평가, 데이터 마이닝 결과를 최종적으로 수용할 것인지 판단 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가 6. 전개 모델을 실 업무에 적용하기 위한 계획 수립, 유지보수 계획 마련(생명주기 고려 필요) 전개 계획 수립, 모니터링/유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰
4. KDD vs CRISP-DM
KDD | CRISP-DM |
---|---|
분석대상 비즈니스 이해 | 업무 이해 |
데이터셋 선택 / 데이터 전처리 | 데이터의 이해 |
데이터 변환 | 데이터 준비 |
데이터 마이닝 | 모델링 |
데이터 마이닝 결과 평가 | 평가 |
데이터 마이닝 활용 | 전개 |
5. 빅데이터 분석 방법론
- 빅데이터 분석의 계층적 프로세스
- 단계(Phase): 프로세스 그룹을 통해 완성된 단계별 산출물 생성
- 태스크(Task): 각 단계는 여러 개의 태스크로 구성, 단계를 구성하는 단위 활동이며 물리/논리적 단위로 품질 검토 항목이 될 수 있음
- 스텝(Step): WBS의 워크 패키지에 해당되고 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스
- 빅데이터 분석 방법론 5단계
- 분석 기획(Planning): 비즈니스 도메인과 문제점 인식, 분석 계획 및 프로젝트 수행계획을 수립하는 단계
- 데이터 준비(Preparing): 비즈니스 요구사항과 데이터 분석데 필요한 원천 데이터를 정의하고 준비하는 단계
- 데이터 분석(Analyzing): 원천 데이터를 분석용 데이터셋으로 편성하고 분석 기법과 알고리즘으로 데이터를 분석하는 단계, 추가 데이터가 필요할 경우 준비 단계로 피드백하여 두 단계 반복 진행
- 시스템 구현(Developing): 분석 기획에 맞는 모델 도출, 운영 중인 가동 시스템에 적용하거나 시스템 개발을 위한 사전 검증
- 평가 및 전개(Lesson Learned): 프로젝트 성과를 평가하고 정리, 모델 발전 계획을 수립하여 차기 분석 기획으로 전달
3절. 분석 과제 발굴
1. 분석 과제 발굴 방법론
- 개요
- 과제 정의서 형태로 도출
- 하향식 접근 방법과 상향식 접근 방법이 있음
- 최적의 의사 결정은 두 접근 방식이 상호 보완일 때 가능
- 디자인 사고: 상향식 접근의 발산 단계, 하향식 접근의 수렴 단계를 반복적으로 수행하여 분석 가치를 높임
- 하향식 접근법(Top Down Approach)
- 현황 분석을 통해 기회나 문제 탐색 → 문제 정의 → 해결방안 탐색
- 데이터 분석의 타당성 평가를 거쳐 분석 과제를 도출하는 과정으로 구성
1단계. 문제 탐색
문제를 해결함으로 나타나는 가치에 중점
비즈니스 모델 기반 문제 탐색: 비즈니스 모델 캔버스 업무(Operation), 제품(Product), 고객(Customer), 규제와 감사(Regulation & Audit), 지원 인프라(IT & Human Resource)
분석 기회 발굴 범위 확장
- 거시적 관점: 사회, 기술, 경제, 환경, 정치
- 경쟁자 확대: 대체제, 경쟁자, 신규 진입자
- 시장 니즈 탐색: 고객, 채널, 영향자들
- 역량의 재해석: 내부역량, 파트너 네트워크
외부 참조 모델 기반 문제탐색
- Quick & Easy 방식으로 빠르게 도출
- 데이터 분석을 통한 인사이트 도출
- 지속적 조사와 데이터 분석을 통한 가치 발굴 사례를 정리하여 풀(Pool)로 만들면 좋음
분석 유즈 케이스(Analytics Use Case)
- 빠짐 없이 도출한 분석 기회를 구체적인 과제로 만들기 전에 분석 유즈 케이스로 표기하는 것이 필요
2단계. 문제 정의(Problem Definition)
- 식별된 비즈니스 문제를 데이터 문제로 변환하여 정의하는 단계 (How ?)
- 데이터 분석 문제 정의 및 요구사항: 분석 수행 당사자뿐 아니라 최종 사용자(End User) 관점에서 이루어져야 함
- 데이터 정의 및 기법 발굴을 용이하게 하기 위해 정확히 분석의 관점에서 문제를 재정의할 필요가 있음
3단계. 해결 방안 탐색(Solution Search)
- 정의된 데이터 분석 문제 해결을 위해 다양한 방안 모색
- 기존 정보시스템의 단순한 보완으로 분석 가능한지 고려
- 엑셀 등 간단한 도구로 분석 가능한지 고려
- 하둡 등 분산병렬처리를 활용한 빅데이터 분석 도구로 보다 체계적이고 심도 있는 방안 고려
- 분석 역량이 없을 경우, 교육이나 전문인력 채용으로 역량을 확보하거나 전문 업체를 활용
- 정의된 데이터 분석 문제 해결을 위해 다양한 방안 모색
4단계. 타당성 검토(Feasibility Study)
- 경제적 타당성: 비용 대비 편익 분석 관점으로 접근
- 데이터 및 기술적 타당성
- 상향식 접근법(Bottom up Approach)
다양한 원천 데이터를 대상으로 분석하여 가치 있는 모든 문제를 도출하는 과정
하향식 접근법의 한계를 극복하기 위한 분석 방법론
- 단계별 접근법은 문제 구조가 분명하고, 문제 해결이 데이터 분석가 및 의사결정자에게 주어져 있음을 가정 → 솔루션 도출에는 유리하나 새로운 문제 탐색에는 한계
- 디자인 사고 접근법을 통해 전통적인 분석적 사고 한계를 극복해야 함
- Why가 아닌 사물을 그대로 인식하는 What 관점으로 보아야 함
- 데이터 그 자체를 관찰하고 행동하여 대상을 잘 이해하는 방식의 접근법
- Empathize → Define → Ideate → Prototype → Test
비지도 학습과 지도 학습
비지도 학습(Unsupervised Learning)
- 일반적으로 상향식 접근방식의 데이터 분석은 비지도 학습
방법으로 수행 - 데이터 자체의 결합, 연관성, 유사성을 중심으로 데이터 상태를
표현하는 것 - 예) 장바구니 분석, 군집 분석, 기술 통계 및 프로파일링
- 일반적으로 상향식 접근방식의 데이터 분석은 비지도 학습
지도 학습(Supervised Learning)
- 명확한 목적 하에 데이터 분석을 실시하는 것
- 분류, 추측, 예측, 최적화를 통해 사용자 주도 하 분석을
실시하고 지식을 도출하려는 목적 - 상관관계 분석, 연관 분석을 통해 다양한 문제를 해결
시행 착오를 통한 문제 해결
프로토타이핑 접근법
- 요구사항이나 데이터 규정이 어렵고, 데이터 소스를 명확히 파악하기 어려운 상황에서 일단 분석하고 결과를 보면서 반복적으로 개선해 나가는 방식
- 완벽하지는 못하지만, 신속하게 해결책이나 모형을 제시함으로써 이를 바탕으로 문제를 명확히 인식하고 필요한 데이터를 식별하여 구체화하게 하는 상향식 접근 방식
- 가설 생성 → 디자인 실험 → 실제 환경 테스트 → 인사이트 도출 및 가설 확인
빅데이터 분석 환경에서 프로토타이핑의 필요성
- 문제 인식 수준: 문제 정의가 불명확하거나 새로운 문제일 경우 문제 이해와 구체화에 도움
- 필요 데이터 존재 여부의 불확실성: 데이터를 어떻게 찾을 것인지 사용자와 분석가 간 반복적인 협의 과정 필요
- 데이터 사용 목적 가변성: 기존 데이터 정의를 재검토하여 데이터 사용 목적과 범위 확대 가능
분석과제 정의: 분석별 필요한 소스 데이터, 분석 방법, 데이터 입수, 분석 난이도, 분석 수행주기, 분석 결과 검증 오너십, 상세 분석 과정 정의
- 분석 데이터 소스: 내/외부 비구조적인 데이터와 소셜 미디어 및 오픈 데이터까지 범위 확장하여 고려하고 분석 방법 또한 상세하게 정의
4절. 분석 프로젝트 관리 방안
1. 분석과제 관리를 위한 5가지 주요 영역
Data Size
- 분석하고자 하는 데이터 양 고려
Data Complexity
- 초기 데이터 확보와 통합뿐 아니라 해당 데이터에 적용될 수 있는 분석 모델 선정 등의 사전 고려 필요
Speed
- 시나리오 측면에서의 속도 고려 필요
- 프로젝트 수행 시 분석 모델의 성능 및 속도를 고려한 개발/테스트
Analytic Complexity
- 분선 모델의 정확도와 복잡도는 트레이드 오프 관계
- 분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워짐
- 해석이 가능하면서도 정확도를 올릴 수 있는 최적모델을 찾아야 함
Accuracy & Precision
- 정확도: 모델과 실제 값 사이 차이가 적음을 의미
- 일관성: 모델을 반복했을 때의 편차의 수준
- 활용 측면에서는 정확도가, 안정성 측면에서는 일관성이 중요
2장. 분석 마스터 플랜
1절. 마스터 플랜 수립 프레임 워크
1. 분석 마스터 플랜 수립 프레임 워크
마스터 플랜 수립 개요
- 우선 순위 고려 요소: 전략적 중요도, 비즈니스 성과/ROI, 실행 용이성
- 적용 범위/방식 고려 요소: 업무 내재화 적용 수준, 분석 데이터 적용 수준, 기술 적용 수준
수행 과제 도출 및 우선순위 평가
- 일반적인 IT 프로젝트의 우선순위 평가 예시
- 전략적 중요도: 전략적 필요성, 시급성
- 실행 용이성: 투자 용이성, 기술 용이성
- ROI 관점의 빅데이터 핵심 특징 3V(난이도): 크기(Volume), 다양성(variety), 속도(Velocity) → 투자비용 요소 4V(시급성): 3V + 가치(Value) → 비즈니스 효과
- 일반적인 IT 프로젝트의 우선순위 평가 예시
2절. 분석 거버넌스 체계 수립
1. 거버넌스 체계
- 구성 요소
- 분석 기획 및 관리를 수행하는 조직(Organization)
- 과제 기획 및 운영 프로세스(Process)
- 분석 관련 시스템(System)
- 데이터(Data)
- 분석 관련 교육 및 마인드 육성 체계(Human Resource)
2. 데이터 분석 수준 진단
분석 준비도(Readiness): 분석 업무, 분석 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, 분석 인프라
분석 성숙도(Maturity): 도입 > 활용 > 확산 > 최적화(비즈니스, 조직 및 역량, IT)
분석 준비도
진단 과정 내용 분석업무 파악 발생 사실 분석, 예측 분석, 시뮬레이션 분석, 최적화 분석, 분석 업무 정기적 개선 인력 및 조직 분석 전문가 직무, 분석 전문가 교육 훈련, 관리자의 기본적 분석 능력, 전사 분석업무 총괄 조직, 경영진의 분석 업무 이해 분석 기법 업무별 적합한 분석 기법, 분석 업무 도입 방법론, 분석 기법 라이브러리, 분석 기법 효과성 평가, 분석 기법 정기적 개선 분석 데이터 데이터 충분성 / 신뢰성 / 적시성, 비구조적 데이터 관리, 외부 데이터 활용 체계, 기준 데이터 관리(MDM) IT 인프라 운영 시스템 데이터 통합, EAI/ETL 등 데이터 유통 체계, 분석 전용 서버 및 스토리지, 빅데이터 분석 환경, 통계 분석 환경, 비쥬얼 분석 환경 분석 성숙도 모델
- 조직의 성숙도 평가 도구: CMMI(Capability Maturity Model Integration)
- 성숙도 수준 분류: 도입 단계 → 활용 단계 → 확산 단계 → 최적화 단계
- 분석 성숙도 진단 분류: 비즈니스 부문, 조직/역량 부문, IT 부문
분석 관점에서의 사분면 분석
- 정착형(준비도 낮음, 성숙도 높음)
- 확산형(준비도 높음, 성숙도 높음)
- 준비형(준비도 낮음, 성숙도 낮음)
- 도입형(준비도 높음, 성숙도 낮음)
3. 분석 지원 인프라 방안 수립
분석 과제 단위별로 별도 분석 시스템을 구축하면, 관리 복잡 & 비용
증대 문제가 발생분석 마스터 플랜 기획 단계에서부터 확장성을 고려한 플랫폼 구조
도입이 필요플랫폼 구조: 공동 기능, 중앙 집중적 데이터 관리, 시스템 간
인터페이스 최소화플랫폼
- 단순한 분석 응용프로그램뿐 아니라, 분석 서비스를 위한 응용프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템
- 일반적으로 하드웨어에 탑재되어 데이터 분석에 필요한 프로그래밍 환경과 실행 및 서비스 환경을 제공
- 분석 플랫폼이 구성된 경우, 개별적인 분석 시스템 추가 대신 서비스를 추가하는 방식으로 확장성을 높일 수 있음
4. 데이터 거버넌스 체계 수립
데이터 거버넌스
- 전사 차원 데이터에 대해 관리 체계 수립, 프레임워크 및 저장소 구축
- 마스터 데이터(Master Data), 메타 데이터(Meta Data), 데이터 사전(Data Dictionary)
- 데이터 거버넌스 체계를 구축함으로써 데이터의 가용성, 유용성, 통합성, 보안성, 안정성 확보 가능
- 독자적 수행도 가능하나, 전사 차원의 IT 거버넌스나 EA(Enterprise Architecture)의 구성요소로 구축되는 경우도 있음
- 빅데이터의 효율적인 관리, 다양한 데이터 관리 체계, 데이터 최적화, 정보 보호, 데이터 생명주기 관리, 데이터 카테고리별 관리 책임자 지정 등 포함
데이터 거버넌스 구성 3요소
원칙(Principle)
- 데이터를 유지/관리하기 위한 지침과 가이드
- 보안, 품질 기준, 변경 관리
조직(Organization)
- 데이터 관리 조직의 역할과 책임
- 데이터 관리자, 데이터베이스 관리자, 데이터 아키텍트
프로세스(Process)
- 데이터 관리 위한 활동과 체계
- 작업 절차, 모니터링 활동, 측정 활동
데이터 거버넌스 체계
데이터 표준화
- 업무: 데이터 표준 용어 설정, 명명 규칙 수립, 메타 데이터 구축, 데이터 사전 구축
- 데이터 표준 용어는 표준 단어사전, 표준 도메인사전, 표준 코드 등으로 구성 (점검 프로세스 포함 필요)
- 명명 규칙은 필요 시 언어별로 작성되어 매핑 상태를 유지해야 함
데이터 관리 체계
- 표준 데이터를 포함한 메타 데이터와 데이터 사전 관리 원칙 수립 → 데이터 정합성 및 활용 효율성을 위해
- 수립된 원칙에 근거해 상세 프로세스를 만들고 담당자와 조직을 상세히 준비
- 데이터 생명주기 관리 방안(Data Life Cycle Management) 수립 필요
데이터 저장소 관리(Repository)
- 메타 데이터 및 표준 데이터 관리를 위한 전사 차원 저장소
- 워크플로우 및 관리용 응용 소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통제가 이뤄져야 함
- 데이터 구조 변경에 따른 사전 영향 평가 수행 필요 → 효율적 활용을 위해
표준화 활동
- 데이터 거버넌스 체계 구축 후, 표준 준수 여부를 주기적으로 점검하고 모니터링 실시
5. 데이터 조직 및 인력방안 수립
분석을 위한 3가지 조직 구조
집중 구조
- 전사 분석업무를 별도 분석 전담 조직에서 담당
- 전략적 중요도에 따라 분석조직이 우선순위 정하여 진행
- 현업 업무부서의 분석업무와 이중화/이원화 가능성이 높음
기능 구조
- 일반적인 분석 수행 구조
- 별도 분석조직이 없고 해당 업무 부서에서 분석 수행
- 전사적 핵심 분석이 어려우며, 과거 실적에 국한된 분석이 수행될 가능성이 높음
분산 구조
- 분석조직 인력을 현업부서로 직접 배치하여 분석 업무 수행
- 전사 차원 우선순위 수행
- 분석결과에 따른 신속한 Action 가능
- 베스트 프랙티스 공유 가능
- 부서 분석업무와 역할 분담을 명확히 해야함 → 업무 과다 이원화 가능성
분석 조직 인력 구성
- 분석 조직(DSCoE: Data Science Center of Excellence)
- 비즈니스 인력, IT 기술 인력, 분석 전문 인력, 변화 관리 인력, 교육 담당 인력
6. 분석 과제 관리 프로세스 수립
- 과제 관리 프로세스
- 과제 발굴: 분석 idea 발굴 → 분석 과제 후보 제안 → 분석 과제 확정
- 과제 수행: → 탐구성 → 분석 과제 실행 → 분석 과제 진행 관리 → 결과 공유 및 개선