01. 분석 기획 방향성 도출
1. 분석 기획의 특징
분석 기획은 실제 분석을 수행하기 전에 분석을 수행할 과제의 정의 및 원하는 결과를 얻을 수 있도록 이를 적절히 관리할 수 있는 관리방안을 계획하는 작업이다.
어떠한 목표(What)을 달성하기위해 어떠한 방법(How)을 수행할 지 일련의 계획을 수립하는 과정이다.
분석을 기획하기 위해서는 해당 문제 영역에 대한 ‘전문성 역량’ 및 통계학적 지식을 활용한 ‘분석 역량’ 그리고 분석의 도구인 ‘프로그래밍 분석 역량’에 대해 균형 잡힌 시각을 가지고 방향성 및 계획을 수립해야 할 것이다.(비즈니스 분석 능력 + 통계학 지식 + 데이터 프로그래밍 능력 = 데이터 사이언스)
1) 분석 주제 유형
분석의 대상과 분석의 방법을 아는지에 따라서, 4가지의 유형으로 나누어진다. 4가지의 유형은 서로 융합적으로 반복하게 된다.
- Optimization(최적화) : 분석 대상 및 분석 방법을 모두 알고 있는 경우
- Solution(해결책) : 분석 대상은 알지만, 분석의 방법을 모르는 경우
- Insight(통찰) : 분석 대상을 모르고, 분석의 방법을 알고 있는 경우
- Discovery(발견) : 분석 대상 및 분석 방법을 모두 모르고 있는 경우
2) 목표 시점별 분석 기획 방안
당면한 과제를 빠르게 해결하는 “과제 중심적인 접근 방식”과 지속적인 분석 내재화를 위한 “장기적인 마스터플랜 방식”으로 나누어 볼 수 있다. 이 둘은 융합적으로 적용하는 것이 바람직 하다.
(목표 시점별 분석 기획 방안)
당면한 분석 주제의 해결 (과제 단위) | . | 지속적 분석 문제 내재화 (마스터 플랜 단위) |
---|---|---|
Speed & test | 1차 목표 | Accuracy& Deploy |
Quick_Win | 과제의 유형 | Long Term View |
Problem solving | 접근 방식 | Problem Definition |
2. 분석 기획 시 고려사항
1) 가용한 데이터(Available Data)
데이터의 유형에 따라 분석방법이 달라지기 때문에 데이터의 유형분석이 선행적으로 이루어져야한다. (데이터의 유형 : 정형 데이터, 반 정형 데이터, 비정형 데이터)
2) 적절한 유스케이스 활용
유사 분석 시나리오 및 솔루션이 있다면 이를 최대한 활용하는 것이 중요하다.
3) 장애 요소들에 대한 사전 계획 수립
정확도를 올리기 위해 기간과 자원을 많이 투자하게 되는데, 이것은 비용 상승으로 이어질 수 있으므로 사전에 많은 고려가 필요하다. 일회성 분석으로 끝내지 않고 조직의 역량을 내재화 하기 위하여 충분하고 계속적인 교육 및 활용 방안 등의 변화관리가 고려되어야 한다.
(비용이 발생할 수 있는 부분에 대하여 사전에 계획)
02. 분석 방법론
1. 분석 방법론 개요
데이터 분석을 효과적으로 기업에 정착하기 위해서 데이터 분석 방법론의 수립이 필수적이다.
(계층적 프로세스 모델)
- 단계 : 여러개의 태스크로 구성됨(프로세스 그룹을 통하여 완성된 단계별 완료 보고서가 생성됨)
- 태스크 : 각 단계를 구성하는 단위 활동
- 스텝 : 입력, 처리 및 도구, 출력으로 구성된 단위 프로세스
(분석 방법론의 구성 요소)
- 상세한 절차
- 방법
- 도구와 기법
- 템플릿과 산출물
(기업의 합리적 의사결정의 장애 요소)
- 고정관념
- 편향된 생각
- 프레이밍 효과(동일한 문제도 판단하는 사람에 따라 달라짐)
2. KDD 분석 방법론
1) KDD 분석 절차
- 분석 대상의 비즈니스 도메인에 대하여 이해하고 프로젝트 목표를 정확하게 설정한다.
- 데이터셋을 선택한다.
- 데이터를 전처리한다.(결측치 처리, 이상치 처리 등)
- 데이터를 분석 목적에 맞게 변환한다.
- 데이터 마이닝을 수행한다.(알고리즘을 활용하여 패턴 분석 등)
- 데이터 마이닝의 결과를 평가하고 활용한다.
Selection -> Preprocessing -> Transformation -> Data Mining -> Interpretation/Evaluation
3. CRISP-DM 분석 방법론
1) CRISP-DM 분석 절차
프로세스는 6단계로 구성되어 있으며, 각 단계 간 피드백을 통하여 단계별 완성도를 높이게 되어 있다.(폭포수 모델과는 반대된다.)
- 업무 이해 : 비즈니스의 관점에서 프로젝트의 목적과 요구사항을 이해하는 단계이다. ;업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
- 데이터 이해 : 분석을 위한 데이터를 수집하고 데이터의 속성을 이해하기 위한 단계이다. 데이터의 품질에 대한 문제점을 식별하고 숨겨진 인사이트를 도출한다. ;초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
- 데이터 준비 : 분석을 위하여 수집된 데이터에서 분석 기법에 적합한 데이터셋을 생성하는 단계이다. 많은 시간이 소요될 수 있다. ;분석용 데이터셋 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅
- 모델링 : 다양한 모델링 기법과 알고리즘을 선택하여 모델링을 수행하는 단계이다. ; 모델링 분석 기법 선택, 모델 테스트 계획설계, 모델 작성, 모델 평가
- 평가 : 모델링 단계에서 얻은 모델이 프로젝트의 목적에 부합하는지 평가하는 단계이다. 데이터 마이닝의 결과를 수용할지 혹은 기각할지 최종적으로 판단한다. ; 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
- 전개 : 모델링과 평가 단계를 통해 완성된 모델을 실제 업무에 적용하는 작업이다. 실제 업무에 적용하기 위한 계획을 수립하고 모니터링과 모델의 유지보수 계획을 마련한다. ; 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰
업무 이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개
(출처 - Data Science Central)
4. 빅 데이터 분석 방법론
분석 기획 -> 데이터 준비 -> 데이터 분석 -> 시스템 구현 -> 평가 및 전개
위와 같이 총 5개의 단계로 빅 데이터 분석이 수행되어진다. 다섯 단계를 각각 알아보고, 해당 단계의 프로세스에 대하여 알아보도록 하자.
1) 분석 기획
비즈니스 도메인과 문제점을 인식하고 분석 계획 및 프로젝트 수행계획을 수립하는 단계이다.
(비즈니스 이해 및 범위 설정)
비즈니스 이해 : 비즈니스를 이해하기 위해서는 내부 업무 매뉴얼과 관련자료, 외부의 관련 비즈니스 자료를 조사하고, 향후 프로젝트의 진행을 위한 방향을 설정해야한다.
프로젝트 범위 설정 : 프로젝트 목적에 부합하는 범위를 명확히 설정하고, 프로젝트에 참여하는 참여자들의 이해를 일치시키기 위하여 구조화된 SOW(프로젝트 범위 정의서)를 작성해야한다.
(프로젝트 정의 및 계획 수립)
데이터 분석 프로젝트를 정의 : 프로젝트의 목표 및 KPI(핵심 성과 지표) 목표 수준 등을 구체화해서 상세 프로젝트 정의서를 작성하고, 프로젝트의 목표를 명확화 하기 위해 모델 이미지 및 평가 기준을 설정해야한다.
프로젝트 수행 계획 수립 : 프로젝트 수행 계획서를 작성하는 단계로, 프로젝트의 목적 및 배경, 기대 효과, 수행방법 등을 작성한다.
(프로젝트 위험 계획 수립)
빅 데이터 분석 프로젝트를 진행하며 발생 가능한 모든 위험을 식별한다. 식별된 위험은 빈도, 영향도, 발생 가능성 등을 평가하여 위험의 우선순위를 설정한다.
위험에 대응하기 위해 회피, 전이, 수용, 완화의 방법을 활용하여 위험 관리 계획서를 작성한다.
2) 데이터 준비
비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 준비하는 단계이다.
(필요 데이터 정의)
데이터의 정의 : 데이터의 형태, 데이터의 속성, 데이터의 오너, 등을 포함하는 데이터 정의서를 작성한다.
데이터 획득 방안 : 내부 데이터를 획득할 때는 부서간 업무 협조와 개인정보보호 및 정보 보안과 관련된 문제점을 사전에 점검하고, 외부 데이터를 획득할 때는 시스템 간 다양한 인터페이스 및 법적인 문제점을 고려해 상세하게 데이터 획득 계획을 수립한다.
(데이터 스토어 설계)
정형 데이터 스토어 설계 : 일반적으로 RDBMS(관계형 DB)를 사용하고 데이터의 효율적인 저장과 활용을 위하여 데이터 스토어의 논리적 그리고 물리적 설계를 구분하여 설계한다.
비정형 데이터 스토어 설계 : 하둡 등을 이용하여 비 정형 또는 반 정형 데이터를 저장하기 위한 논리적, 물리적 데이터 스토어를 설계한다.
(데이터 수집 및 정합성 점검)
데이터 수집 및 저장 : 다양한 방법으로 데이터를 수집하고, 수집된 데이터를 스토어에 저장한다.
데이터의 무결성 점검 : 데이터 스토어의 품질 점검을 통해 무결성을 확보하고, 품질개선을 수행한다.
3) 데이터 분석
분석용 데이터셋을 편성하고 다양한 분석 기법과 알고리즘을 이용하는 단계이다.
(분석용 데이터 준비)
비즈니스 룰 확인 : 프로젝트의 목표를 정확하게 인식하도록 한다.(데이터 분석을 위해)
분석용 데이터셋 준비 : 데이터 스토어로부터 분석에 필요한 정형 비정형 데이터를 추출한다.
(텍스트 분석)
웹페이지 데이터, 로그 데이터, 텍스트 자료 등의 비정형 그리고 반정형 데이터를 이용하여 목적에 맞는 적절한 모델을 선택하여 구축한다.
(탐색적 분석 : EDA)
다양한 관점별로 기초 통계량을 산출하고 데이터의 통계적 특성을 이해하고 모델링을 위한 기초 자료로 활용한다. 데이터 시각화는 데이터 분석을 위한 도구로 활용한다.
(모델링)
모델링은 분석용 데이터를 이용한 가설 설정을 통해 통계 모델을 만들거나 기계학습을 이용하여 데이터를 분류, 예측 등의 기능을 수행하는 모델을 만드는 과정을 의미한다.
데이터 분할 : 모델링을 위해 테스트 데이터와 트레이닝 데이터로 분할한다.
데이터 모델링 : 훈련용 데이터를 활용하여 목적에 맞는 모델링을 수행한다.
모델 적용 및 운영 방안 : 모델을 가동중인 시스템에 적용하기 위해 모델에 대한 상세한 알고리즘을 작성한다.
(모델 평가 및 검증)
프로젝트 정의서의 모델 평가 기준에 따라 객관적으로 평가하고 검증용 데이터를 활용하여 모델 검증 작업을 실시한다.
4) 시스템 구현
분석한 결과를 활용하여 운영중인 시스템에 적용하거나 시스템 개발을 위한 사전 검증으로 프로토타입 시스템을 구현하는 단계이다.
(설계 및 구현)
시스템 분석 및 설계, 구현 : 시스템을 분석하고 알고리즘 설명서에 근거해 시스템을 구축한다. 새롭게 시스템을 구축하거나 가동 중인 운영 시슽템의 커스터마이징 등을 통하여 설계된 모델을 구현한다.
시스템 테스트 및 운영 : 구축된 시스템의 검증을 실시한다. 필요에 따라 운영을 하는 사람들에게 교육이 필요한 경우 교육을 실시하고 시스템 운영 계획을 수립한다.
5) 평가 및 전개
데이터를 분석하고 시스템 구현 단계 이후 이를 평가하고, 전개하는 단계이다.
모델의 발전 계획을 상세하게 수립해 모델의 계속성을 확보해야한다.
프로젝트의 성과를 정량적, 정성적으로 평가하고 프로젝트의 최종보고서를 작성하고 보고함으로 프로젝트를 종료한다.
03. 분석 과제 발굴
분석과제는 풀어야 할 다양한 문제를 데이터 분석 문제로 변환한 후 이해관계자들이 이해하고 프로젝트를 수행할 수 있는 과제 정의서 형태로 도출된다.
분석 과제를 도출하기 위해서 ‘하향식 접근 방법’과 ‘상향식 접근 방법’이 있다.
위 두 방법은 서로 혼용되어 사용되며, 두 가지 접근방식이 상호 보완의 관계로 이루어져 있을 때, 최적의 의사결정을 수행한다.
1. 하향식 접근 방법
프로젝트를 먼저 정의하고 그에 대하여 요구되는 요구사항들을 구현하는 것으로, 큰 틀을 잡고 프로젝트를 진행한다고 생각하면 쉽다.(폭포수 모델)
문제 탐색 -> 문제 정의 -> 해결방안 탐색 -> 타당성 평가 의 순서로 진행된다.
1) 문제 탐색 단계
(비즈니스 모델 기반 문제 탐색)
비즈니스 모델은 어떻게 수익을 창출할지에 대한 검증이다.
비즈니스 모델의 틀을 활용하여 가치가 창출될 문제를 누락없이 도출이 가능하다. 비즈니스 모델의 관점에서는 해당 기업의 사업 모델을 도식화한 비즈니스 모델 캔버스의 9가지 블록을 단순화해 ‘업무, 제품,고객’단위로 문제를 발굴하고, 이를 관리하는 두 가지 영역인 규제와 감사 영역, 그리고 지원 인프라 영역을 활용한다.
(분석 기회 발굴의 범위 확장)
다양한 환경과 역량에 대한 재 해석을 통해 분석 기회를 추가로 도출할 수 있다.
- 거시적 관심의 요인 : STEEP(사회 : S, 기술 : T, 경제 : E, 환경 : E, 정치 : P)를 고려하여 폭 넓게 생각해 볼 수 있다.
- 경쟁자 확대 관점 : 사업 영역의 경쟁사 영역 및 제품 서비스의 대체재 영역 그리고 신규 진입자 영역 등으로 경쟁되는 대상의 관점을 확대하여 위협이 될 수 있는 상황에 대한 분석 기회 발굴 폭을 넓혀서 탐색한다.
- 시장의 니즈탐색 : 고객 영역과 고객과 접촉하는 채널 영역 및 고객의 구매와 의사결정에 영향을 미치는 영향자들 영역에 대한 관점을 바탕으로 분석 기회를 탐색한다.
- 역량의 재해석 관점 : 해당 조직의 비즈니스에 영향을 미치는 파트너 네트워크 영역을 포함한 활용 가능한 역량을 토대로 폭 넓은 분석 기회를 탐색한다.
(외부 참조 모델 기반 문제 탐색)
벤치마킹을 통하여 분석 기회를 발굴할 수 있다. 그리고 업무에 활용되는 사례들을 조사하여 자사의 업종 및 서비스에 적용할 수 있다.
(분석 유스케이스)
풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시하여 향후 데이터 분석 문제로의 전환 및 적합성 평가에도 활용할 수 있다.
2) 문제 정의
식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계이다.
문제 탐색을 통해 찾아낸 문제점들을 데이터 문제로 어떻게 해결해야할지, ‘필요한 데이터 및 기법을 정의’하는 역할을 수행한다. ( 비즈니스 문제를 데이터 분석 문제로 정의한다. )
3) 해결 방안 탐색
동일한 분석 문제일지라도, 어떤 데이터 또는 어떤 분석 시스템을 사용하냐에 따라 소요되는 비용이 달라지게 된다. 따라서, 다각도로 이를 고려해볼 필요가 있다.
4) 타당성 검토 단계
경제적 타당도 : 비용이 적절한지에 대하여 타당성을 평가하는 것
데이터 및 기술적 타당도 : 데이터가 존재하는지, 그리고 기술적으로 실현가능한지에 대하여 평가하는 것
2. 상향식 접근 방식
문제의 정의 자체가 어려울 때 상향식 접근 방식을 활용한다. 상향식 접근 방식은 각각의 기능들을 개발하고 그 기능들을 하나로 묶어서 전체 프로그램을 만들어내는 기법이다. 보통 일반적으로 상향식 분석은 비지도 학습을 할 때 수행된다.
3. 분석 과제 정의
분석과제 정의서는 향후에 프로젝트 수행 계획의 input이 되기 때문에 이해관계자가 프로젝트의 방향을 설정하고, 성공 여부를 판별할 수 있는 주요한 자료를 명확히 작성해야한다.
04. 분석 프로젝트 관리 방안
분석 과제의 주요 5가지 특성 관리 영역
- Data Size
분석하려하는 데이터의 크기를 고려하여 관리방안을 세워야한다. (데이터의 크기가 매우 크다면, 하둡환경에서 구축하는 것이 훨신 좋다.) - Data complexity
비 정형 데이터와 같은 경우 해당 데이터에 맞는 분석모델을 선정해야하는 등의 사전 고려가 필요하다. - Speed
분석 결과에 대한 시나리오의 속도를 고려해보아야한다. 예를들어 실시간으로 은행업무의 사기를 탐지하는 시스템을 구축하였다고 생각하자. 사기를 판단하는데 오랜 시간이 걸리면 해당 시스템을 적용하기 어려울 것이다. 따라서 프로젝트 수행 시 분석모델의 성능 및 속도를 고려한 개발 및 테스트가 수행되어야 한다. - Analytic Complexity
분석모델이 복잡해질수록, 정확도는 올라가고, 설명을 하기 어려워 질 수 있다. 즉 복잡도와 정확도 그리고 설명력의 trade-off관계를 고려하여 사전에 기준점을 정해야 한다. - Accuracy & Precision
Accuracy는 정확도를 의미한다. 모델이 얼마나 잘 맞추었는가에 대한 것이다.
Precision은 모델이 positive를 얼마나 잘 맞추었는가에 대한 설명이다.(Confusion Matrix를 공부해 보는 것이 좋다.)
두 관계가 trade-off가 되는 경우가 많기 때문에 이에 대하여 고려해야한다.
1. 분석 프로젝트의 특성
프로젝트 관점에서는 도출된 분석 과제를 잘 구현해 원하는 정보를 얻기 위해서 프로젝트의 전체적인 관점을 고려해야한다.
분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑에서 애자일 프로젝트 관리 방식에 대한 고려가 필요하다.
애자일 모델 - 계속해서 프로토타입을 개발하여 요구사항에 더하고 수정하며 커다란 소프트웨어를 개발하는 기법
2. 분석 프로젝트 관리 방안
분석 프로젝트는 데이터 분석의 특성을 살려 프로젝트관리지침을 기본 가이드로 활용할 필요가 있다. 프로젝트 관리 지침의 관리체계는 통합, 이해관계자, 범위, 자원, 시간, 원가, 리스크, 품질, 조달, 의사소통으로 이루어져 있다.
(프로젝트 관리 지침 가이드)
주제 그룹 | 개념 및 관련 프로세스 |
---|---|
통합 | 프로젝트와 관련된 다양한 활동과 프로세스 도출, 정의, 결합, 단일화, 조정, 통제, 종료에 필요한 프로세스 |
이해관계자 | 이해관계자를 식별 및 관리하는 프로세스 |
범위 | 작업과 인도물을 식별하고 정의하는 데 요구되는 프로세스 |
자원 | 시설, 인력, 자재와 같은 적절한 프로젝트의 자원을 식별하고 확보하는 프로세스 |
시간 | 프로젝트 활동의 일정을 수립하고 통제하는 프로세스 |
원가 | 예산에 대하여 관리하는 프로세스 |
리스크 | 위험과 기회를 식별하고 대응하는 프로세스 |
품질 | 품질 보증과 품질 통제를 계획하고 확립하는 데 요구되는 프로세스 |
조달 | 제품 및 서비스 또는 인도물을 인수하고 공급자와의 관계를 관리하는 프로세스 |
의사소통 | 프로젝트와 관련된 정보를 계획, 관리, 배포하는 데 요구되는 프로세스 |
포스팅을 마치며
새로운 과목인 데이터 분석 기획파트를 공부해 보았습니다. 확실히 이전에 배웠던 것보다 난이도가 있다고 생각되네요. 많은 사람들이 이 파트에서 과락을 많이 한다고 하는데.. 열심히 공부해야겠습니다. 저는 과거에 소프트웨어공학을 공부하면서 PMBOK을 공부했었는데, 혹시나 추가로 공부를 하실 분들은 PMBOK을 찾아서 한번 읽어보시면 도움이 될 것같아요. 대부분의 내용을 PMBOK에서 읽어본 것 같더라구요..
아무튼 여기서 마치도록 하겠습니다! 감사합니다.
'Etc > Adsp' 카테고리의 다른 글
ADsP 시험준비 3과목 데이터분석(1) (0) | 2021.07.16 |
---|---|
ADsP 시험준비 2과목 데이터 분석 기획(2) (0) | 2021.07.16 |
ADsP 시험준비 1과목 데이터의 이해(3) (0) | 2021.07.16 |
ADsP 시험준비 1과목 데이터의 이해(2) (0) | 2021.07.16 |
ADsP 시험준비 1과목 데이터의 이해(1) (0) | 2021.07.16 |