# 분석 주제 유형 ★★ (최 솔 통 발)
분석의 대상(What) → 분석의 방법(How)↓ | 대상 Known | 대상 Un-Known |
방법 Known | 최적화(Optimization) ★ | 통찰(Insight) ★ |
방법 Un-Known | 솔루션(Solution) ★ | 발견(Discovery) ★ |
# 분석 목표 시점별
단기방안 | 중장기방안 |
Speed, Test | Accuracy, Deploy |
Quick-win | Long Term View |
Problem solving | Problem Definition |
과제 중심 | 장기적인 마스터 플랜 |
# 분석 기획 시 고려사항 ★
(1) 가용한 데이터
- 관련 데이터 파악, 데이터의 확보가 우선적이며,
- 데이터 유형분석이 선행적으로 이뤄져야 한다. (데이터의 유형에 따라 솔루션 및 분석 방법이 다르기 때문에)
- ex) 반정형 데이터: 센서 중심으로 스트리밍되는 머신 데이터
(2) 적절한 유스케이스
- 분석을 통해 가치가 창출될 수 있는 적절한 활용방안과 유스케이스(비즈니스케이스) 탐색필요
- 기존에 구현되어 활용되고 있는 유사 분석 시나리오/솔루션을 최대한 활용하는 것이 중요.
(3) 분석과제 수행을 위한 장애요소
- 비용대비 효과의 적정한 비용, 분석 모형의 안정적 성능 확보
- 분석을 수행함에 있어서 발생하는 장애요소들에 대한 사전 계획 수립이 필요
- 조직의 역량으로 내재화하기 위해서 충분하고 계속적인 교육 및 활용방안 등의 변화 관리
※분석 유스케이스
현재의 비즈니스 모델 및 유사/동종사례 탐색을 통해 빠짐없이 도출한
분석 기회들을 구체적인 과저로 만들기 전에 분석 유스케이스로 표기하는 것이 필요.
# 빅데이터 기획 전문가 ★
- 회사 내 기능조직, 비즈니스 분석 또는 BI조직에 소속
- 빅데이터 분석 전문 조직과 협력하여 업무에 필요한 분석 모델이나 예측 모델을 Self Service Analytics 도구를 활용하여 구현하는 전문가
# 기업의 합리적 의사결정 막는 장애요소
고정관념, 편향된 생각, 프레이밍효과
# 프레이밍 효과
합리적 의사결정을 방해하는 요소로써 표현방식 및 발표자에 따라 동일한 사실에도 판단을 달리하는 현상
# 분석방법론의 구성요소 ★
절차, 방법, 도구와 기법, 템플릿과 산출물
# 방법론의 적용 업무의 특성에 따른 모델
(1) 폭포수 모델(Waterfall model) - 하향식(top down)
- 단계를 순차적으로 진행하는 방법으로, 이전 단계가 완료되어야 다음 단계로 진행될 수 있으며 문제가 발견되면 피드백 과정이 수행
(2) 나선형 모델(Spiral model) ★
- 대규모 시스템 소프트웨어 개발에 적합 여러 변의 개발 과정을 거쳐 점진적으로 프로젝트를 완성시켜가는 모델
- 반복을 통해 점증적으로 개발하는 방법으로 처음 시도하는 프로젝트에 적용이 용이하지만 관리체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어렵다
(3) 프로토타입 모델(Prototype model) - 상향식
- 데이터 소스 파악 어려운 상황에서 사용, 점진적으로 시스템을 개발해 나가는 접근 방법
- 고객의 요구를 완전하게 이해하고 있지 못하거나 완벽한 요구 분석의 어려움을 해결하기 위하여 개발의 일부분만을 우선 개발한다.
- 가설생성 -> 결과로 확인
- 사용자는 시험 사용을 하게 되고 이를 통해서 요구를 분석하거나 요구 정당성을 점검, 성능을 평가하여 그 결과를 개선 작업에 반영, 개발검증, 양산검증을 거쳐야 시제품이 됨
# ISP (Information Strategy Planning 정보전략계획) ★★ (2번출제)
- 기업 및 공공기관에서 시스템의 중장기 로드맵을 정의하기 위해 수행한다.
- 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내/외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜을 수립하는 전사적인 종합추직 계획
# 플랫폼 ☆
- 단순한 분석 응용프로그램 뿐만 아니라 분석 서비스를 위한 응용 프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템을 의미한다.
- 분석 플랫폼이 구성되어 있는 경우, 새로운 데이터 분석 니즈가 존재할 때 개별적인 분석 시스템을 추가하는 방식이 아닌 서비스를 추가로 제공하는 방식으로 확장성 높일 수 있다.
# 내용 기반 필터링(Content based filtering)
- 아이템에 대한 설명과 사용자 선호를 기반으로 하여 과거 사용자가 좋아했던 것과 비슷한 아이템을 추천하는 알고리즘
# 데이터 분석을 위한 조직 구조 ★★ (집중-기능-분산)
집중형 구조 | - 전사 분석업무를 별도의 분석전담조직이 담당 - 전략적 중요도에 따라 분석조직이 우선순위를 정해 진행 - 회사의 모든 분석 업무를 담당 - 현업업무 부서의 분석업무의 중복, 이원화 가능성이 높음 |
기능중심 조직 구조 |
- 별도 분석조직이 없고 해당 업무부서에서 직접 분석 수행 - 전사적 핵심분석이 어려움, 부서현황 및 실적통계 등 과거 실적에 국한된 분석수행 가능성이 높음 |
분산조직 구조 | - 분석조직 인력들을 현업업무로 직접 배치하여 신속한 업무에 적합 - 전사 차원의 우선순위 수행 - 베스트 프랙티스 공유 가능 - 부서분석 업무와 역할 분담 명확히 해야함. (업무 과다 이원화 가능성) |
# KDD 분석 절차 (선택-전처리-변환-마이닝)
(1) 데이터셋 선택 | - 분석 대상 비즈니스 도메인의 대한 이해와 프로젝트 목표 설정 - 데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터 선택 - 데이터마이닝에 필요한 목표 데이터 구성 |
(2) 데이터 전처리 ★ | - 분석 대상 데이터셋에 포함되어 있는 잡음과 이상치, 결측치를 식별하고 필요시 제거하거나 의미있는 데이터로 재처리하여 데이터셋을 정제 추가로 요구되는 데이터 셋이 있을 경우 데이터셋 선택 프로세스 재실행 |
(3) 데이터 변환 | 목적에 맞는 변수를 생성, 선택하고 데이터의 차원을 축소하여 효율적으로 데이터마이닝을 할 수 있도록 변경 (학습용 데이터와 시험용 데이터로 분리) |
(4) 데이터마이닝 | ⓵ 목적 설정 ⓶ 데이터 준비 ⓷ 가공 ⓸ 기법 적용 ⓹ 검증 학습용 데이터를 이용해서 목적에 맞는 데이터마이닝 기법 및 알고리즘 선택 - 필요에 따라 데이터 전처리와 데이터 변환 프로세스를 추가로 실행하여 최적 결과 산출 |
(5) 결과 평가 | - 데이터마이닝 결과에 대한 해석과 평가 그리고 분석 목적과의 일치성을 확인 - 활용 방안 마련 및 필요에 따라 이전 프로세스를 반복 수행 |
# CRISP-DM 프로세스 (업무-이해-준비-모델링-평가-전개)
- 6단계로 구성, 각 단계는 한 방향으로 구성되어 있지 않고 단계 간 피드백을 통해 단계별 완성도를 높이게 되어 있다.
(1) 업무이해 |
도메인 지식을 데이터분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립, 프로젝트 목적과 요구사항을 이해 - 분석 절차 위대한 실패 발생 단계 ⇒ 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 ★ |
(2) 데이터 이해 | 분석을 위한 데이터를 수집, 데이터 속성을 이해 과정 데이터 품질에 대한 문제점을 식별, 숨겨져 있는 인사이트를 발견하는 단계 ⇒ 초기 데이터수집, 데이터 기술분석, 데이터 탐색, 데이터 품질확인 |
(3) 데이터 준비★ =KDD 데이터전처리 |
분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터로 편성하는 단계로써 많은 시간이 소요될 수 있다. ⇒ 데이터셋 선택, 데이터 정제, 데이터셋 편성, 데이터 통합 |
(4) 모델링 | 다양한 모델링 기법과 알고리즘 선택, 파라미터를 최적화. 과적합 문제 발견 및 대응. 데이터셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행 모델링 결과를 테스트용 데이터셋으로 평가하여 과적합 문제 확인 ⇒ 모델링 기법 선택, 모델 테스트 계획설계, 모델 작성, 모델 평가 ★ |
(5) 평가 | 모델링 결과가 프로젝트 목적에 부합하는지 평가. 결과를 수용할 것인지 판단 ⇒ 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가 (모델평가는 아님 주의!!) |
(6) 전개 | - 완성된 모델을 실제 업무에 적용하기 위해 계획을 수립하고 모니터링과 모델의 유지보수계획을 마련한다. - 모델은 적용되는 비즈니스 도메인의 특성, 입력되는 데이터 품질 편차, 운영모델의 평가기준에 따라 생명주기가 다양하므로 상세한 전개 계획이 필요하다. - 프로젝트 종료 관련 프로세스를 수행하여 프로젝트를 마무리한다. ⇒ 전개계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰 |
1. 비지도 학습과 지도 학습
구분 | 비지도학습 | 지도학습 |
기법 | 장바구니 분석 군집 분석 ★ 연관분석 OLAP SOM ★ 주성분 분석(PCA) 기대값 최대화(EM) K-means 기술 통계 및 프로파일링 |
의사결정나무 ★ 인공신경망 ★ 회귀분석 ★ 로지스틱 회귀분석 ★ K-NN, SVM 분류분석 ★ 감성분석 ★ 앙상블 ★(배깅,부스팅,랜덤) |
예시 | 고객의 과거 거래 구매 패턴을 분석했다. 고객이 상품을 구매할 때 동시에 구매한 상품을 분석했다. |
대출 가능한 고객을 분류했다. 자동차 연비에 영향을 주는 요소를 분석했다. |
(1) 비지도학습
- 일반적으로 상향식 접근방식의 데이터 분석 비지도 학습 방법에 의해 수행된다.
- 비지도학습은 데이터분석의 목적이 명확히 정의된 형태의 특정 필드의 값을 구하는 것이 아니라 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현하는 것이다.
(2) 지도학습
명확한 목적 하에 데이터를 분석하는 것으로 분류, 추측, 예측, 최적화를 통해 분석을 실시하고 지식을 도출한다.
2. 빅데이터 분석 방법론 ★
(1) 분석 기획 ★ | ① 비즈니스 이해 및 범위 설정 (SOW 작성)★ ② 프로젝트 정의 및 계획 수립 (WBS작업분할구조도 작성) ③ 프로젝트 위험계획 수립 (회피,전이,완화,수용)★ |
(2) 데이터 준비 | ① 필요 데이터 정의 ② 데이터 스토어 설계 ③ 데이터 수집 및 정합성 점검 |
(3) 데이터 분석 | ① 분석용 데이터 준비 ② 텍스트 분석 ③ 탐색적 분석 ④ 모델링 ★ (분류,예측,군집) ⑤ 모델 평가 및 검증 |
(4) 시스템 구현 | ① 설계 및 구현 ② 시스템 테스트 및 운영 |
(5) 평가 및 전개 | ① 모델 발전 계획 수립 ② 프로젝트 평가 및 보고 |
(1) 분석 기획 ★ (범위-정의-계획-위험)
① 비즈니스 이해 및 범위 설정 : SOW(Statement Of Work) 작성 ★
② 프로젝트 정의 및 계획 수립
- WBS(Work Breakdown Strucure) 작업분할구조도 작성
- 입력자료 : 중장기계획서, 빅데이터분석 프로젝트 지시서, 비즈니스 이해 및 도메인 문제점
- 프로세스 및 도구 : 자료 수집, 비즈니스 이해, 프로젝트 범위 정의서 작성 절차
③ 프로젝트 위험계획 수립 (회 수 완 전)
- 위험관리: 회피(Avoid), 수용(Accept), 전이(Transfer), 완화(Mitigate) ★★
(2) 데이터 준비
① 필요 데이터 정의
데이터 정의서를 이용하여 구체적인 데이터 획득방안을 상세하게 수립함으로써 데이터 획득 과정에서 발생하는 프로젝트 지연을 방지한다.
- ERD : 운영중인 데이터베이스와 일치하기 위해 철저한 변경관리가 필요하다. ★
② 데이터 스토어 설계
- 데이터 스토어는 정형·비정형·반정형 데이터를 모두 저장할 수 있도록 설계한다.
- 데이터 매핑: 두 개의 서로 다른 데이터 모델이 만들어지고 이러한 모델 간의 연결이 정의되는 프로세스
- ETL(Extract Transformation Loading) : 다양한 데이터를 취합해 추출하고, 하나의 공통된 포맷으로 변화해 데이터 웨어하우스나 데이터마트 등에 적재하는 과정을 지원하는 도구
- API(Application Programming Interface) : 라이브러리에 접근하기 위한 규칙 정의한 것
(3) 데이터 분석
- 추가적인 데이터가 필요한 경우 데이터 준비 단계와 반복적 피드백 수행하는 구간 ★
④ 모델링 ★
분석용 데이터를 이용한 가설 설정을 통해 통계 모델을 만들거나 기계학습을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모델을 만드는 과정
기계학습은 지도학습과 비지도학습 등으로 나뉘어 다양한 알고리즘을 적용
모델링을 효과적으로 진행하기 위해서는 모델링 전에 데이터셋을 훈련용과 시험용으로 분할함으로써 모델의 과적합을 방지하거나 모델의 일반화에 이용된다.
(4) 시스템 구현
- 시스템으로 구현한 모델은 검증을 위하여 단위테스트, 통합테스트, 시스템 테스트 등을 실시.
- 이중 시스템 테스트는 품질관리 차원에서 진행함으로써 적용된 시스템의 객관성, 안정성 확보
- 알고리즘 설명서는 시스템구현 단계에서 중요한 입력자료로 활용되므로 필요시 의사코드 수준의 상세한 작성이 필요하다.
3. 하향식(Top-down) 접근 방식 ★
문제가 정형화되어 있고 문제해결을 위한 데이터가 완벽하게 조직에 존재할 경우에 효과적 폭포수 모델
(1) 문제 탐색 (Problem discovery)
- 비즈니스 모델 기반 문제 탐색 ★
- 외부 참조 모델 기반 문제 탐색 ★
- 비즈니스 모델 캔버스를 활용하여 가치가 창출된 문제를 누락없이 도출,식별하는 것 중요
(5가지 영역 : 업무, 제품, 고객, 지원인프라, 규제와 감사) - 분석 기회 발굴의 범위 확장 : 대체제, 경쟁자, 신규진입자 영역 ★ 사업영역의 직접 경쟁사 및 제품, 서비스를 중심으로 폭 넓혀서 탐색
- 분석 유즈 케이스 정의 : 현재의 비즈니스 모델 및 유사/동종 사례탐색을 통해서 빠짐없이 도출한 분석 기회들을 구체적인 과제로 만들기 전에 분석 유스 케이스로 표기하는 것이 필요하다.
- 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요
(2) 문제 정의 (Problem definition)
- 분석을 수행하는 당사자뿐만 아니라 최종 사용자 관점에서 이루어져야 한다.
- 정확하게 분석의 관점으로 문제를 재정의
- 필요한 데이터 및 기법을 도출하기 위한 데이터 분석의 문제로의 변환을 수행.
(3) 해결방안 탐색(Solution search)
- 분석 역량을 가지고 있는지 여부를 파악하여 과제를 해결하는 방안에 대해 사전 검토 수행
(4) 타당성 검토(Feasibility study) ★
- 도출된 분석문제나 가설에 대한 대안을 과제화하기 위해서 “다각적”(경제적,기술적,데이터)타당성 분석이 수행되어야 한다. ★
- 기술적 타당성 분석시 적용 가능한 요소기술 확보방안에 대한 사전 고려가 필요하다. ★
- 데이터 존재 여부, 분석 시스템 환경, 분석역량에 대한 검토 필요 (문제발생 포인트에 대한 확보는 아님!!!)
- 경제적 타당성은 비용대비 효익의 관점에서 평가한다.
4. 상향식(Bottom-up) 접근 방식
(1) 기존 하향식 접근법의 한계를 극복하기 위한 분석 방법론. 프로토타입 모델
- 문제의 정의 자체가 어려운 경우. 최근 복잡하고 다양한 환경에서 발생하는 문제엔 부적합.
- "Why"가 아니라 사물을 있는 그대로 인식하는 "What" 관점에서 보아야 한다.
- 객관적으로 존재하는 데이터 그 자체를 관찰하고 실제적으로 행동에 옮김으로써 대상을 좀 더 잘 이해하는 방식으로의 접근을 수행하는 것이다.
- 비지도 학습 방법(컴퓨터가 알아서 분류)에 의해 수행됨.
- 디지인 싱킹의 발산 단계에 해당 ★
(2) 시행착오를 통한 문제 해결 “프로토타이핑 접근법”
- 사용자의 요구사항이나 데이터 규정이 어렵고, 데이터 소스 파악이 어려운 상황에서 일단 분석해보고 그 결과를 확인해가면서 반복적으로 개선해 나가는 방법 (디자인에대한 실험)
- 신속하게 해결책이나 모형 제시, 가설 생성함으로써 문제를 좀 더 명확하게 인식하고 필요한 데이터를 식별하여 구체화할 수 있게하는 유용한 상향식 접근방식
5. 분석 프로젝트 특징 ★
- 영역별 관리가 수행되어야 함
- 분석 과제 정의서 기반으로 프로젝트 진행
- 5가지 주요 특성 고려해서 추가적 관리 필요
- Data Size(크기), Data Complexity(데이터 복잡도), Speed(속도)
- Analytic Complexity (트레이드 오프관계)
- Accuracy (분석의 활용적 측면) & Precision (분석의 안정성 측면)
# 분석과제정의서
분석별로 필요한 소스데이터, 분석방법, 데이터 입수 및 분석의 난이도,
분석 수행주기, 분석결과에 대한 검증 오너십, 상세분석 과정 등을 정의한다.
5-1. 분석 프로젝트 관리방안 ★
시간, 범위, 품질, 통합, 이해관계자, 범위, 자원, 시간, 원가, 리스크, 품질, 조달, 의사소통
범위 (Scope) |
최종산출물이 보고서인지 시스템인지에 따라 프로젝트 관리에 차이가 있다. ★ |
시간 (Time) |
데이터 분석 프로젝트는 초기에 의도했던 모델이 쉽게 나오지 않기 때문에 지속적으로 반복되어 많은 시간이 소요될 수 있다. 프로젝트 일정계획 수립시 데이터 수집에 대한 철저한 통제,관리필요 없다. ★ 결과 품질이 보장된다는 전제로 Time Boxing 기법으로 일정관리를 진행 필요 |
품질 (Quality) |
분석프로젝트를 수행한 결과에 대한 품질목표를 사전에 수립하여 확정해야 함. 품질을 평가하기 위해서 SPICE를 활용할 수 있다. ★ |
6. 분석 마스터 플랜 수립 프레임 워크
- 기업, 기관의 전사차원에서 제한된 예산과 자원을 효과적으로 수행하기 위해 선/후행 관계를 고려해 우선순위를 평가하고 평가 결과에 따른 단계별 로드맵 수립하는 계획
- 프로젝트의 세부 일정계획도 데이터 분석체계를 고려하여 작성한다.
- 분석과제
- 우선순위 고려요소(전략적 중요도, ROI, 실행 용이성)
- 적용 우선순위 결정
- 적용범위/방식 고려요소(업무내재화 적용수준, 분석데이터 적용수준, 기술 적용수준)
- 분석 구현 로드맵 수립
- 시급성과 전략적 필요성은 전략적 중요도의 평가 요소이다.
- 적용기술의 안저성 검증은 기술 용이성의 평가 요소이다.
6-1. 분석 마스터 플랜 고려 요소 ★
- 업무 내재화 적용 수준
- 분석 데이터 적용 수준
- 기술 적용 수준
6-2. 데이터 분석과제를 추진할 때 고려해야 하는 우선순위 평가기준 ★★
- 사분면 영역에서 가장 우선적인 분석 과제 적용이 필요한 영역은 3사분면이다.
- 분석과제의 적용 우선순위 기준을 "시급성"에 둔다면 3→4→2 영역 순이며,
- 우선순위 기준을 "난이도"에 둔다면 3→1→2 영역 순으로 의사결정을 할 수 있다. ★★
- 시급성 판단 기준:전략적 중요도 및 목표가치 ★★
- 난이도 판단 기준 : 분석비용과 적용범위 측면에서 쉬운것인지 어려운것인지 ★★
- 시급성, 난이도가 높은 영역(1사분면)은 경영진, 실무 담당자의 의사결정에 따라 조정
7. 디자인 사고(Design thinking) ★
- 새로운 상품을 개발하거나 전략수립 등 중요한 의사결정을 할 때 가능한 옵션을 도출하는 상향식 접근 방식의 발산(Diverge) 단계와 도출된 옵션을 분석하고 검증하는 하향식 접근 방식의 수렴(Converge) 단계를 반복적으로 수행하며 상호 보완한다.
- 동적인 환경에서 분석의 가치를 높일 수 있는 최적의 의사결정 방식
8. 데이터 분석수준 진단 프레임워크
(1) 분석 준비도(Readiness)
- 기업의 데이터 분석 도입의 수준을 파악하기 위한 진단방법
- 일정 수준 이상 충족하면 분석 업무 도입, 충족하지 못할 시 분석 환경 조성
분석 업무 파악 ★ | 인력 및 조직 | 분석 기법 |
- 발생한 사실 분석 업무 - 예측 분석 업무 - 시뮬레이션 분석 업무 - 최적화 분석 업무 - 분석 업무 정기적 개선 |
- 분석전문가 직무 존재 - 전문가 교육훈련 프로그램 - 관리자 기본분석능력 - 전사총괄조직· 경영진 분석 업무 이해 |
- 업무별 적합한 분석기법 - 분석 업무 도입 방법론 - 분석기법 라이브러리 - 분석기법 효과성 평가 - 분석기법 정기적 개선 |
분석 데이터 ★ | 분석 문화 | IT 인프라 |
- 분석업무를 위한 데이터 충분성 /신뢰성 /적시성 - 비구조적 데이터 관리 - 외부데이터 활용 체계 - 기준데이터 관리 (MDM) |
- 사실에 근거한 의사결정 - 관리자의 데이터 중심 - 회의 등에서 데이터 활용 - 직관보다 데이터활용 - 데이터 공유 및 협업 문화 |
- 운영시스템 데이터 통합 - EAI,ETL 등 데이터 유통체계 - 분석 전용 서버 및 스토리지 - 분석 환경 (빅데이터/통계/비쥬얼) |
(2) 분석 성숙도 모델 (도 활 확 최)
- 성숙도 평가 도구: 능력 성숙도 통합 모델 CMMI(Capability Maturity Model Integration)
- 분석 성숙도 진단 분류: 비즈니스 부문, 조직·역량 부문, IT 부문
(1) 도입형 | 준비도만 높음. 분석을 시작하여 환경과 시스템 구축, 바로 도입 가능 |
(2) 활용 (준비형) ★ | 성숙도, 준비도 다 낮음. 사전 준비 필요 분석 결과를 실제 업무에 적용. |
(3) 확산 (확산형) | 성숙도, 준비도 다 높음. 전사 차원에서 분석을 관리하고 공유. 지속적 확산 필요 |
(4) 최적화 (정착형) ★ | 성숙도만 높음. 준비도 낮음. 분석을 진화시켜서 혁신 및 성과 향상에 기여. 정착 필요 |
9. 거버넌스(Governance)
기업, 비영리기관 등에서 규칙, 규범, 행동이 구조화, 유지, 규제되고, 책임을 지는 방식 및 프로세스를 지칭
9-1. 분석 거버넌스
데이터가 어떻게 관리,유지,규제되는지에대한 내부적인 관리방식, 프로세스
9-2. 분석 거버넌스 체계 ★ (분석 비용 및 예산, 돈관련 없음!!)
(1) 분석 기획 및 관리를 수행하는 조직 (Organization) ★
(2) 과제 기획 및 운영 프로세스 (Process) ★
(3) 분석 관련 시스템 (System)
(4) 데이터 (Data)
(5) 분석 관련 교육 및 마인드 육성 체계 (Human Resource) ★
9-3. 데이터 거버넌스 ★
- 전사차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운용조직 및 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크(Framework) 및 저장소(Repository)를 구축하는 것
- 데이터 품질보장, 프라이버스보호, 데이터수명관리, 전담조직과 규정정립, 데이터 소유권과 명확화 등을 통해 데이터가 적시에 필요한 사람에게 제공되로록 체계 확립
- 빅데이터 거버넌스를 산업분야별, 데이터 유형별, 정보 거버넌스 요소별로 구분해 작성 ★
- 확립되지 못하면 빅브라더의 우려 (정보의 독점으로 사회를 통제하는 권력, 사회체계)
- 관리 대상:마스터 데이터, 메타 데이터, 데이터 사전(Data Dictionay)
9-4. 데이터 거버넌스 구성 요소
- 원칙(Principle) : 데이터를 유지관리하기위한 지침과 가이드 및 보안, 품질기준, 변경관리
- 조직(Organization) : 데이터 관리할 조직 역할과 책임 및 데이터 관리자, 데이터 아키텍트
- 프로세스(Process) : 데이터 관리를 위한 활동과 체계 및 작업 절차, 모니터링 활동
9-5. 데이터 거버넌스 체계 ★
(1) 데이터 표준화 ★
- 데이터 표준용어 설정, 명명 규칙(Name rule) 수립, 메타 데이터 구축, 데이터 사전 구축
(2) 데이터 관리 체계 ★
- 표준데이터를 포함한 메타데이터, 데이터 사전 관리 원칙을 수립, 데이터 생명주기 관리
(3) 데이터 저장소(Repository) 관리 ★
- 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성
(4) 표준화 활동
- 데이터 거버넌스 체계를 구축한 후 표준 준수 여부를 주기적으로 점검, 모니터링 실시
9-6. 빅데이터 거버넌스 특징 ★★
- 기업이 가진 모든 데이터를 분석하여 비즈니스 인사이트를 찾는것은 비용면에서 비효율적 - 분석대상 및 목적을 명확히 정의, 필요한 데이터 수집, 분석하여 점진적으로 확대해 나가는 것이 좋음
- 빅데이터 분석에서 품질관리도 중요하지만, 데이터 수명주기 관리방안을 수립하지 않으면 데이터 가용성 및 관리 비용 중대 문제에 직면할 수 있음
- ERD는 운영중인 데이터베이스와 일치하기 위해 계속해서 변경사항을 관리해야함
- 적합한 분석 업무를 도출하고 가치를 높여줄 수 있도록 분석 조직 및 인력에 대해 지속적인 교육과 훈련을 실시함
- 개인정보보호 및 보안에 대한 방법을 마련해야함
- 산업 분야별, 데이터 유형별, 정보 거버넌스 요소별로 구분하여 작성함
9-7. 빅데이터 거버넌스와 데이터 거버넌스 차이점 (백업주기변경 아님 주의!)
- 데이터 수명주기 관리
- 개인정보보호 및 보안
- 데이터 품질기준
- 변경관리
10. 데이터저장소(Repository) ★
- 메타 데이터 및 표준 데이터를 관리하기 위한 전사차원의 저장소로 구성된다.
- 저장소는 데이터 관리체계 지원을 위한 워크플로우 및 관리용 응용소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이뤄져야 한다. ★
- 데이터 구조 변경에 따른 사전영향평가도 수행되어야 효율적인 활용이 가능하다. ★
11. 분석과제 관리 프로세스
- 크게 과제발굴과 과제수행으로 나뉜다.
- <과제발굴>단계에서는 분석 아이디어 발굴, 분석과제 후보제안, 분석과제 확정 프로세스
- 분석과제중 발생된 시사점과 분석 결과물은 풀(pool)로 관리하고 공유된다.
(확정된 분석과제는 풀로 관리하지 않는다.) - <과제수행>단계에서 팀구성, 분석과제 실행, 분석과제 진행관리, 결과공유 프로세스가 있다.
12. 빅데이터 분석
- 분석대상 데이터를 모든 형태 및 내외부 데이터로 확대한다.
- 데이터의 생산 시점에서부터 실시간에 가까운 분석이 가능하다.
- 데이터마트에 정형 데이터를 적재하고 데이터 분석을 통하여 모델을 만들 수 있다.
- 고급분석기법은 기존에 행해졌던 데이터 분석에서도 활용되었다.
13. Self Service Analytics
- 포함되어야 하는 주요 기능은 BI도구, Ad hoc Report, OLAP, Visual Discovery, MachineLearning 등이다.
- 성공적인 적용을 위해서는 Reference Method의 작성 및 공유, 표준 데이터의 활용,
- 데이터 거버넌스, 도구 사용에 대한 지속적인 교육이 필요하다.
- 수행하기 위해서는 R, Python 등의 데이터 분석 언어와 많은 통계적 지식을 필요로 한다.
- 상업용뿐아니라 OSS로도 구현된다.
# 용어 단답형 출제
- Servitization : 제조업과 서비스업의 융햡을 나타내는 용어 ex)웅진 코웨이의 코디
- CoE(Center of Excellence) : 구성원들이 비즈니스, IT역량 및 분석 역량을 고루 갖추어야하며, 협업부서 및 IT부서와의 지속적인 커뮤니케이션을 수행하는 조직 내 분석 전문조직
- Sandbox : 보안모델, 외부접근 및 영향을 차단하여 제한된 영역내에서만 프로그램 동작
- ISP(정보전략계획) : 전사적 관점의 정보 구조를 도출하여 이를 위한 전략 및 실행계획을 수립하는 전사적인 종합추진 계획
'Certificate > ADSP' 카테고리의 다른 글
[ADSP] 3과목 - 5장 1-2. 데이터마이닝,성과분석,ROC/ 분류분석, 지니계수 (0) | 2022.10.11 |
---|---|
[ADSP] 3과목 - 4장. 시계열 분석, 다차원척도법(MDS), 주성분 분석(PCA) (0) | 2022.10.10 |
[ADSP] 3과목 - 4장.통계분석, 기초통계분석, 회귀분석 (0) | 2022.10.09 |
[ADSP] 3과목 1-3장. 데이터 분석, R, 데이터마트 (0) | 2022.10.09 |
[ADSP] 1과목. 데이터, 데이터베이스, 빅데이터 (0) | 2022.10.05 |
댓글