1장.데이터
# 데이터
- 데이터는 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실(fact)
- 추론, 예측, 전망, 추정을 위한 근거(bias)로 기능하는 특성을 갖음
- 다른 객체와의 상호관계 속에서 가치를 찾음
# 데이터의 유형 (두개 헷갈리지 말기!)
(1) 정성적(qualitative) 데이터
- 형태와 형식이 정해져있지않아 저장/검색/분석하는데 많은 비용과 기술적 투자가 수반된다.
- 언어, 문자로 기술
ex) 설문조사 주관식 응답, sns에 올린글, 기상특보 등 비정형 데이터
(2) 정량적(quantitative) 데이터
- 데이터의 양이 크게 증가하더라도 저장, 검색, 분석하여 활용하기 용이하다.
- 수치, 도형, 기호 등으로 표시
ex) 지역별 온도, 풍속, 강우량
# 지식경영의 핵심 이슈
- 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용에 중요한 역할을 한다.
- 개인의 암묵지와 집단에서의 형식지가 나선형의 형태로 회전하면서 생성,발전,전한되는 지식의 발전을 기반으로한 기업의 경영
구분 | 의미 | 예 |
암묵지 | 학습과 경험을 통해 개인에게 습득되어 있지만 겉으로 드러나지 않는 지식 |
김치 담그기, 자전거타기 |
형식지 | 문서나 매뉴얼처럼 형상화된 지식 | 교과서, 비디오, DB, 회계,재무 관련 대차대조표에 요구되는 지식의 매뉴얼 |
1. 암묵지
- 사회적으로 중요하지만 다른 사람에게 공유되기 어렵다.
- 개인에게 축적된 내면화된 지식이 조직의 지식으로 공동화 된다.
2. 형식지
- 전달과 공유가 용이하다.
- 언어, 기호, 숫자로 표준화된 지식이 개인의 지식으로 연결화 된다.
# SECI모델 ★★
(Socialization–Externalization-Combination-Internalization Model)
- 암묵지+형식지의 4단계 지식전환 모드
1) 공동화 (암-암) : 경험을 공유를 통해 새로운 암묵지 창조
- 암묵지 지식 노하우를 다른 사람에게 알려주기
2) 표출화 (암-형) : 암묵지에서 구체적인 개념을 도출하여, 암묵지를 형식지로 표출
- 암묵적 지식 노하우 → 책이나 교본 등 형식지로 만들기
3) 연결화 (형-형) : 표출된 형식지의 완성도를 높여 지식체계로 전환
- 책이나 교본(형식지)에 자신이 알고 있는 새로운 지식(형식지)을 추가하기
4) 내면화 (형-암) : 표준화와 연결화로 공유된 기술적 노하우가 개인의 암묵지로 변환
- 만들어진 책이나 교본(형식지)를 보고 다른 직원들이 암묵적 지식(노하우)을 습득
* ‘ㄱ', 'ㄴ’ 사이에 ‘표연’있음!
# DIKW 피라미드 (데 정 식 혜) ★ 무조건 암기!!
구분 | 의미 | 예 ★ |
지혜 (wisdom) |
지식의 축적과 아이디어가 결합된 창의적인 산물 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적인 아이디어. |
A마트의 다른 상품들도 B마트보다 더 쌀 것이라고 판단한다. |
지식 ★ (knowlegde) |
데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것. 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과 |
상대적으로 저렴한 A마트에서 연필을 사야겠다. |
정보 ★ (information) |
데이터의 가공 및 상관관계 속에서 이해를 통해 패턴을 인식하고 그 의미가 도출된 것 | A마트의 연필이 더 싸다. |
데이터 ★ (data) |
개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실. 존재형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미 |
A는 100원, B는 200원에 연필을 판매 |
# 데이터(자료) 양의 단위
- 일반적으로 8개의 비트를 하나로 묶어 1 Byte라 하고 있으며, 1 Byte가 표현할 수 있는 정보의 개수는 2의 8제곱 = 256개가 된다.
- 바이트는 256종류의 정보를 나타낼 수 있어 숫자, 영문자, 특수문자 등 모두 표현가능★
b < B < KB < MB < GB < TB < PB < EB < ZB < YB ★ (페지로 외우기)
# 인덱스 ★
데이터베이스 내의 데이터를 신속하게 정렬하고 탐색하게 해주는 구조.
원하는 형태의 배열과 찾아보기를 가능하게 해주는 기능.
2장. 데이터베이스
데이터 베이스
문자, 기호, 음성, 화상, 영상 등 상호 관련된 다수의 콘텐츠를 정보 처리 및 정보통신 기기에 의해 체계적으로 수집·축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체
데이터베이스의 특징 ★
(영어도 암기, 웨어하우스랑 헷갈리지말기!)
(1) 통합된 데이터(integrated data)
- 동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미.
- 데이터 중복은 관리상 복잡한 부작용 초래
(2) 저장된 데이터(stored data)
- 자기디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장매체에 저장되는 것.
- 데이터베이스는 기본적으로 컴퓨터 기술을 바탕으로 한 것
(3) 공용 데이터(shared data)
- 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미.
- 대용량화 되고 구조가 복잡하다. 프로그램 생산성 향상
(4) 변화되는 데이터(changeable data) (무결성)
- 데이터베이스에 저장된 내용은 곧 데이터베이스의 현 상태를 나타냄.
- 데이터 삽입, 삭제, 갱신으로 항상 변화하면서도 현재의 정확한 데이터를 유지해야함
# 데이터베이스의 설계 절차 ★
요구사항 분석 > 개념적 설계(E-R모델) > 논리적 설계 > 물리적 설계
# DBMS
- DBMS : 사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보처리, 관리
- RDBMS : 정형화된 테이블로 구성된 데이터 항목들의 집합체(MySQL, Oracle Database)
- ODBMS : 객체지향 DB 관리 시스템. 복잡한 데이터 구조를 표현 및 관리하는 DBMS
# NoSQL (MongoDB, Apache HBase, Redis)
- 관계형DB보다 덜 제한적인 일관성 모델을 이용하는 데이터 저장 및 검색을 위한 메커니즘 제공, 디자인 단순화, 수평적 확장성, 세세한 통제 등 포함
# OLTP (On-Line Transaction Processing, 온라인 거래 처리) ★
- 여러 단말에서 온 메시지를 호스트 컴퓨터가 데이터베이스를 액세스하고 바로 처리 결과를 돌려보내는 형태. 데이터베이스의 데이터를 수시로 갱신하는 프로세싱을 의미한다.
예) 주문 입력 시스템, 재고 관리 시스템 등
# OLAP (On-Line Analytical Processing. 온라인 분석 처리)
- 다차원으로 이루어진 데이터로부터 통계적인 요약 정보를 제공할 수 있는 기술
- 다차원의 데이터를 대화식으로 분석하기 위한 SW
예) 10년간 A사의 직급별 임금 상승률
Data Warehouse
- 기업 내의 의사결정 지원 애플리케이션을 위한 정보를 제공하는 하나의 통합된 데이터 저장 공간
- 방대한 조직내에서 효율적인 의사결정 시스템을 위한 기초를 제공하는 정보관리시스템
- ETL : 추출, 변환, 적재(Extract, Transform, Load)
- 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 데이터 웨어하우스에 정보를 적재한다.
- 데이터들은 시간적 흐름에 따라 변화하는 값을 일정기간 유지
데이터 웨어하우스의 4대 특성
- 데이터의 통합 : 데이터들은 전사적 차원에서 일관된 형식으로 정의됨
- 데이터의 시계열성 : 관리되는 데이터들은 시간의 흐름에 따라 변화하는 값을 저장함
- 데이터 주제 지향적 : 특정 주제에 따라 데이터들이 분류, 저장, 관리됨
- 비소멸성(비휘발성) : Batch작업에 의한 갱신이외에 변하지 않음(빈번한 삽입, 삭제아님)
Data Mart
- 전사적으로 구축된 데이터 웨어하우스로부터 특정 주제, 부서 중심으로 구축된 소규모 단일 주제의 데이터 웨어하우스
- 재무, 생산, 운영과 같이 특정 조직의 특정 업무 분야에 초점을 두고 있음
# CRM (CustomerRelationship Management) ★★
- 기업 내부 데이터베이스를 기반으로 고객과 관련된 자료를 분석·통합해 고객에 대한 이해를 돕고 이를 토대로 각종 마케팅 활동을 계획·지원·평가하고 높은 이익을 창출하는 솔루션
- 단순한 정보 수집에서 탈피, 분석 중심의 시스텍 구축 지향
# SCM (SupplyChain Management) ★★
- 원재료의 생산·유통 등 모든 공급망 단계를 최적화하고, 정보기술을 활용하기위한 솔루션
- 외부 공급업체, 제휴업체와 통합된 정보시스템으로 연계하여 시간,비용 최적화
- 자재구매 데이터, 생산, 재고 데이터, 유통/판매 데이터, 고객데이터로 구성됨
# ERP (EnterpriseResourcePlanning) ★★
- 인사·재무·생산 등 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 경영자원을 하나의 통합 시스템으로 재구축함으로써 생산성을 극대화하려는 경영혁신기법
- 제조업을 포함한 다양한 비즈니스 분야에서 생산, 구매, 재고, 주문, 공급자와의 거래, 고객서비스제공 등 주요 프로세스 관리를 돕는 여러 모듈로 구성된 통합 애플리케이션
# KMS (KnowledgeManagement System,지식관리시스템) ★★
- 조직 내 구성원이 축적하고 있는 노하우 등 암묵적 지식을 형식지로 표출화 될 수 있도록 지원하는 등, 조직의 경쟁력 향상을 위해 지식 자원을 체계화 하고 원활하게 공유될 수 있도록 지원하는 시스템
- 기업 내부 데이터베이스 솔루션인지 아닌지 구분할수 있어야함:SCM,CRM,ERP,KMS 암기
BI (Business Intelligence) ★
- 기업의 Data Warehouse에 저장된 데이터에 접근해 경영의사결정에 필요한 정보를 획득하고 이를 경영활동에 활용하는 것
- 데이터를 통합/분석하여 기업활동에 연관된 의사결정을 돕는 프로세스 ★
- 즉, 기업의 사용자가 더 좋은 의사결정을 하도록 데이터 수집, 저장, 분석, 접근을 지원하는 응용시스템과 기술
- 하나의 특정 비즈니스 질문에 답변하도록 설계
가트너의 정의
‘여러 곳에 산재되어 있는 데이터를 수집하여 체계적이고 일목요연하게 정리함으로써 사용자가 필요로 하는 정보를 정확한 시간에 제공할 수 있는 환경’
# BI와 비교하여 빅데이터 분석에 대한 키워드★
- Information, Ad hoc Report, Alerts, Clean Data
# ad hoc report
- BI와 빅데이터 분석의 차이점을 표현한 키워드
- Optimization, forecast, insight : 빅데이터 분석 관련 키워드임
BA (Business Analytics) ★
(BI랑 헷갈리지말기)
- 경영 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법 ★
- 성과에 대한 이해와 비즈니스 통찰력에 초점을 준 분석 방법
- 사전에 예측하고 최적화하기 위한 것으로 BI 보다 진보된 형태
# 메타데이터 ★
데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해주는 데이터.
데이터 마이닝(Data Mining)
- 대용량 데이터로부터 의미있는 관계, 규칙, 패턴, 숨겨진 지식을 찾는 과정
- 목적 설정
- 데이터 준비 (데이터 클렌징)
- 가공★(목표변수정의, 마이닝 소프트웨어)
- 기법 적용
- 검증
데이터 유형 ★
유형 | 내용 | 예시 |
정형 데이터 | - 형태 있고 연산 가능, 데이터 자체 분석가능 - 주로 관계형 데이터베이스에 저장됨- 데이터 수집 난이도가 낮고, 형식이 정해져 있어 처리가 쉬움 |
관계형 데이터베이스, Demand Forecast ★ ERP, CRM csv, 스프레드시트, Transaction data, |
반정형 데이터 | - 형태(스키마, 메타데이터)가 있으며 연산이 불가능 - 주로 파일로 저장됨 ★ - 보통 API 형태로 제공되기 때문에 데이터 처리기술(파싱)이 요구됨 - Competitor Pricing ★ |
XML, HTML, JSON, report, 모바일데이터, 기기에서 생성된 데이터, 로그데이터, 센서데이터 메타데이터, 스키마, |
비정형 데이터 | - 형태가 없으며 연산이 불가능 - 주로 NoSQL에 저장됨- 데이터 수집 난이도가 높으며 처리가 어려움 |
E-mail Records ★ E-mail 전송 데이터, 페이스북소셜데이터 검색어,음성, 영상, 문자 |
# 객체지향 DBMS ★
- 정보를 객체 형태로 표현하는 데이터베이스 모델 ⇒ 복잡한 데이터 구조를 표현 및 관리
# RFID
- 무선주파수(RF,Radio Frequency)를 이용해 대상을 식별하는 기술
# NEIS ★
사회기반사회기반구조로서의 데이터베이스
- 교육부문 - NEIS
- 지리/교통부문 - ITS, LBS, SIM, GIS
- 물류부문 - CVO
- 의료부문 - 의료EDI ( 표준화된 양식을 통해 전자문서 교환)
정부는 사회간접자본차원에서 EDI를 활용하여 부가가치통신망을 통해 정보망을 구축하였음. - CALS ( Commerce At Light Speed ) : 전자상거래 구축을 위해 제품의 라이프 사이클 전반에 관련된 데이터를 통합, 공유, 교환구조로써의 데이터베이스
# 블록체인(Block chain)
- 기존 금융회사의 중앙 집중형 서버에 거래 기록을 보관하는 방식에서 벗어나 거래에 참여하는 모든 사용자에게 거래 내용을 보여주며 거래때마다 이를 대조하는 데이터 위조방지기술
- 그 외에 EAI, EDW, ERP, e-CRM 등이 있다.
- 네트워크에 참여하는 모든 사용자의 거래 내역 등의 데이터를 분석, 저장하는 기술을 지칭하는 용어. 공공거래장부, 분산거래장부로 불리기도 한다.
# 신용평가
핀테크 분야에서 빅데이터 활용이 가장 핵심적인 분야
3장. 빅데이터
1. 빅데이터의 정의
(1) 4V (ROI, Return On Investment, 투자자본수익률 관점에서 보는 빅데이터)
- Volume (양): 데이터의 규모 측면
- Variety (다양성): 데이터의 유형과 소스 측면
- Velocity (속도): 데이터의 수집과 처리 측면
- Value (가치) : 비즈니스 효과요소
- 투자비용요소 : 3V (volume,variety,velocity) ★
(2) 인재, 조직 변화까지 포함해 넓은 관점에서의 정의
(3) 그 밖의 정의
- 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 ★
- 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처 ★
1-1. 빅데이터의 출현배경 ★
- 산업계에서 일어난 변화를 보면 빅데이터의 현상은 양질 전환 법칙으로 설명할 수 있다.
- 양질전환법칙 : 일정한 양이 누적되면 어느 순간 질적인 비약이 이루어짐
- 빅데이터는 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 "변화"를 말한다.
- 트위터, 페이스북 SNS 등 비정형 데이터의 급격한 확산 ★
- 디지털화, 저장기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 등 관련 기술발전과 관련
- 클라우드 컴퓨팅 활용 : 빅데이터 처리 비용 감소의 결정적 기술 ★
⇒ 빅데이터 분석에 경제성을 제공 ex) 하둡 - 클라우드 분산 병렬처리 컴퓨팅은 대용량 데이터 처리 비용을 획기적으로 줄임
- 클라우드 컴퓨팅 활용 : 빅데이터 처리 비용 감소의 결정적 기술 ★
2. 데이터의 가치 측정이 어려운 이유 ★
- 데이터 재사용, 재조합, 다목적용 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 사용했는지 알기 힘들기 때문
- 빅데이터는 기존에 존재하지 않던 가치를 창출하기 때문
- 분석 기술의 발전으로 지금은 가치없는 데이터도 새로운 분석 기석기법의 등장으로 거대한
= 가치를 만들어내는 재료가 될 가능성이 있다.
3. 빅데이터의 상호관계 ★
사물 인터넷(사물끼리 정보를 주고받는 기능) ☆ ㅡ Datafication(데이터화) ★
4. 빅데이터에 거는 기대
석탄, 철 | 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회/경제/문화 전반에 혁명적 변화를 가져올 것으로 기대 |
원유 | - 각종 비즈니스, 공공기관 대국민 서비스, 경제성장에 필요한 정보를 제공함 으로써 산업 전반의 생산성을 한 단계 향상 - 기존에 없던 새로운 범주의 산업을 만들어 낼 것으로 전망 |
렌즈 | - 렌즈를 통해 현미경이 생물학에 미쳤던 영향만큼 데이터가 산업 발전에 영향을 미칠 것 - 구글 ‘Ngram Viewer'를 통해 수천만 권의 책을 디지털화 |
플랫폼★ | - 비즈니스 측면에서는 ‘공동 활용의 목적으로 구축된 유/무형의 구조물’ - 페이스북과 같이 다양한 사업자들이 공동으로 사용하는 플랫폼을 빅데이터 형태로 제공할것으로 예상 - 각종 사용자 데이터와 센서 데이터를 수집하고 API를 공개하면서 서드파티 사용자들이 활용하는 플랫폼 역할 기대 ex) kakao, facebook |
5. 빅데이터가 만들어 내는 본질적인 변화 ★ (사후, 전수, 양, 상관)
(1) 사전처리 → 사후처리
필요한 정보만 수집, 필요하지 않은 정보는 버리는 시스템 → 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다.
(2) 표본조사 → 전수조사
표본을 조사하는 기존의 지식 발견 방식이 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 인해 전수조사로 변화하게 된다. 이에 따라 샘플링이 주지 못하는 패턴이나 정보를 찾을 수 있게 된다.
(3) 질 → 양
데이터가 지속적으로 추가될 때 양질의 정보가 오류보다 많아져 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 두고 변화
ex) 구글의 자동 번역 시스템 (Volume) ★
(4) 인과관계 → 상관관계
상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의해 미래 예측을 점점 더 압도해 가는 시대가 도래하게 될 것으로 전망된다.
5-1. 빅데이터 활용 3요소 ★★ (인프라, 프로세스 아님!!!!)
데이터 | 모든 것의 데이터화 |
기술 | 진화하는 알고리즘, 인공지능 |
인력 | 데이터 사이언티스트, 알고리즈미스트 |
5-2. 빅데이터 활용 사례 ★
- 구글 검색엔진, 실시간 자동변역 시스템
- 월마트의 고객 소비 패턴 분석, IBM 왓슨 - 의료분야에 활용
- 넷플릭스의 영화 추천 알고리즘 Cinematch
- 자라의 일일 판매량을 실시간 데이터 분석으로 상품 수요를 예측
- 정부의 실시간 교통정보 활용, CCTV 국가 안전에 활용
- 사회관계망분석을 통한 현상분석, 가수의 팬 음악청취 기록 분석 활용
- 아마존의 킨들(Kindle,전자책 전용 단말기)에 쌓이는 전자책 읽기 관련 데이터를 분석해 저자들에게 제공
5-3. 산업별 분석 애플리케이션
산업 | 일차원적 분석 애플리케이션 |
금융 서비스 | 신용점수 산정, 사기 탐지, 가격 책정, 프로그램 트레이딩, 클레임 분석, 고객 수익성 분석 |
소매업 | 판촉, 매대 관리, 수요 예측, 재고 보충, 가격 및 제조 최적화 |
제조업 | 공급사슬 최적화, 수요예측, 재고 보충, 보증서 분석, 맞춤형 상품 개발 |
에너지 ★ | 트레이딩, 공급/수요 예층 |
온라인 | 웹 매트릭스, 사이트 설계, 고객 추천 |
6. 플랫폼형 비즈니스 모델 ★
상품, 서비스, 기술 등의 기반 위에 다른 이해관계자들이 보완적인 상품, 서비스, 기술을 제공하는 생태계 구축을 목표로 하는 비즈니스 모델
협의의 분석 플랫폼 : 데이터 처리 프레임 워크 ★
7. 맵리듀스 ★
구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작하여 004년 발표한 소프트웨어 프레임 워크
8. 데이터 레이크
- 별도로 정제되지 않은 자연스러운 상태의 아주 큰 데이터 세트
- 지난 몇 년간 여러 사일로 대신 하나의 데이터 소스를 추구하는 경향이 생겼다. 전사적으로 쉽게 인사이트를 공유하는데 도움이 되기 때문이다.
9. 비즈니스 모델 캔버스(Business Model Canvas) ★ (그림암기)
- 암기 순서) ㄱ&ㄱ / 업 제 고 / 지원 인프라
- 비즈니스 모델을 일목묘연하게 보여주는 그래픽 템플릿
- 9개로 구성된 중요한 비즈니스 영역/블록들의 유기적인 연결을 통해 기업이 가치를 창출하고 전달하고 획득하는 원리를 9가지 요소로 분석
① Customer Segments(고객 세그먼트)
③ Channel(채널) ★
- 기업이 고객에게 가치를 제안하기 위해 커뮤니케이션하고 상품이나 서비스를 전달하는 방법
- 커뮤니케이션, 물류, 판매채널 등 기업과 고객의 인터페이스 전반이 바로 채널이다. (유통채널은 아님!!)
- 기업이 제공하는 상품이나 서비스에 대한 고객의 이해를 높여준다.
- 고객에게 밸류 프로포지션(가치 제안)을 전달한다.
- 구매고객에 대한 에프터서비스(a/s)를 제공한다.
- 고객세그먼트에 따라 어떤 채널을 사용할 것인지, 어떤 채널을 사용해야 고객에게 효과적으로 가치를 전달하고 기업 입장에서는 수익을 극대화할 수 있는지에 대한 부분
④ Customer Relationships(고객 관리)
⑤ Key Resources(핵심 자원)
⑥ Revenue Streams(수익원)
⑦ Key Activities(핵심활동)
⑧ Key Partnerships(핵심 파트너)
⑨ Cost Structure(비용 구조)
10. 빅데이터 활용 기본 테크닉 ★
연관규칙학습 (Association rule Learning) |
- 변수간에 주목할 만한 상관관계가 있는지 찾아내는 방법 (3과목 연관분석의 지지도, 신뢰도, 향상도) |
예) 커피를 구매하는 사람이 탄산음료를 더 많이 사는가? 우유 구매자가 기저귀도 같이 구매하는가? |
|
유형분석 (Classification tree Analysis) |
- 이 사용자는 어떤 특성을 가진 집단에 속하는가? 와 같은 문제해결에 사용 |
예) 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용 | |
유전자 알고리즘 ★ (Generic Algorithms) |
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화시켜 나가는 방법 (적자 생존) - 생명의 진화를 모방하여 최적해(Optimal Solution)를 구하는 알고리즘으로 존 홀랜드(John Holland)가 1975에 개발하였다. |
예) 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가? |
|
기계학습 ex)추천시스템 (기 추!) |
- 훈련 데이터로 부터 학습한 알려진 특성을 활용해 예측하는 일에 사용 |
예) 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까? (넷플릭스 추천 시스템) | |
회귀분석 ex)충성도 (회 충!) |
- 선형함수로 나타낼수 있는 수치데이터 분석. 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 인과관계를 파악 |
예) 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? 고객 만족도가 충성도에 어떤 영향을 미치는가? |
|
감정분석 ★ (감성분석) |
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석 ex) 트위터 형용사 분석 - 특정 주제에 대한 긍정/부정 의견 분석 및 주관적 평가를 측정 (주로 문장이나 단어가 분석의 대상) - 호텔에서 고객의 논평을 받아 서비스를 개선하기 위해 활용 - 소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아낼 때 활용 |
예) 새로운 환불 정책에 대한 고객의 평가는 어떤가? | |
소셜 네트워크 분석 ★ (사회 관계망 분석, SNA) |
- 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력 있는 사람을 찾아낼 때 사용 (SNS 고객들 소셜 관계 파악) |
예) 고객들 간 관계망은 어떻게 구성되어 있나? 최근 핀테크 기업에서 대출 제공시 활용 |
11. 빅데이터 시대의 위기 요인★
내용 / 사례 | 해결책 | |
사생활 침해 | - 개인정보가 포함된 데이터를 본래목적 외에 활용할 경우 사생활 침해를 넘어 사회, 경제적 위협으로 변형될 수 있다. | - 동의제에서 책임제로 전환 (개인정보 사용자에게 책임을 지움으로써 개인정보 사용주체가 보다 적극적인 보호장치를 강구하게 하는 효과 발생) - 익명화(Anonymization):개인 식별저보를 삭제하거나 알아볼 수 없게 변환 |
예) 여행 사실을 트윗한 사람의 집을 강도가 노리는 사례 발생 | ||
책임 원칙 훼손 | - 빅데이터 기본 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 올라간다. |
- 결과 기반 책임 원칙 고수 - 기존의 책임원칙을 강화 |
예) 범죄 예측 프로그램을 통해 범죄 전 체포 | ||
데이터 오용 | - 빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. - 또한 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있다. - 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러올 수 있다. |
알고리즘 접근 허용 및 객관적인 인증방안 도입 필요성 제기 알고리즘에 대한 접근권을 제공하여 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문한다. → 알고미즈미스트는 데이터오용의 피해를 막고, 구제해주는 전문가 ★ |
# 개인정보 비식별화 기법 ★
- 데이터 마스킹(Masking) : 정보를 보호하는데 사용. 데이터를 익명으로 생성 (홍**)
- 데이터 범주화 : 범주화, 단일식별 정보를 해당 그룹의 대표값으로 변환 (홍씨, 30~40세)
- 가명처리 : 다른값으로 대체 (홍길동 → 임꺽정)
- 잡음 첨가 : 자료값에 잡음 추가, 곱셈으로 원래 자료를 변형해서 공개
- 총계처리/평균값 대체 : 총합 값으로 대체 (키 합:750cm, 평균키:185cm)
- 데이터 값 삭제 : 개인 식별에 중요한 값 삭제 (90년대 생, 남자)
- 난수화 : 고객구매기록이나 나이,수입 같은 데이터를 해독 불가능하게 난수화, 무작위 처리
# 잊혀질 권리
온라인 또는 SNS상에서 생성,저장,유통되는 개인의 사진이나 거래 정보를 삭제, 수정, 파기를 요청할 수 있는 권리
# 빅데이터 열풍
- 빅데이터 분석은 데이터의 양이 아닌 유형의 다양성과 관련이 있다.
- 일차적 분석 경험이 증가하고 분석의 활용 범위를 더 넓고 전략적으로 변화시켜야함
# 데이터 사이언스 ★
- 데이터로부터 의미있는 정보를 추출해내는 학문 ★
- 정형,반정형,비정형의 다양한 유형의 데이터를 대상으로 함
- 분석뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지를 포함한 포괄적 개념
- 데이터 공학, 수학, 통계학, 시각화, 해커의 사고방식 해당분야의 전문지식을 종합한 학문임
⇒ 총체적(holistic) 접근법을 사용함 - 과학과 인문학의 교차로에 있음 ⇒ 스토리텔링, 커뮤니케이션, 창의력, 직관력, 열정 필요
# 데이터 사이언스의 핵심 구성요소
- IT(Data Management) 영역
- 분석적 영역
- 비즈니스 컨설팅 영역
(데이터 시각화는 다른 영역!!)
# 데이터 기반 분석의 상관관계, 통계적 분석의 인과관계
- 실시간 ‘상관관계 분석’에서 도출된 인사이트를 바탕으로 수익창출 기회가 점점 늘어남
- 데이터 기반의 ‘상관관계’ 분석이 주는 인사이트가 ‘인과관계’에 의한 미래 예측을 점점 더
압도해 가는 시대가 도래하고 있음 (특정 현상의 발생가능성이 포착)
# 데이터 사이언티스트의 요구역량 (하드스킬과 소프트스킬을 동시에 갖춰야함!)
(1) 하드스킬(Hard Skill)
- Machine Learning, Modeling, Data Technical Skill ★
- 빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득
- 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적
(2) 소프트 스킬(Soft Skill)
- 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판
- 설득력 있는 전달 : 스토리텔링, 시각화
- 다분야 간 협력 : 커뮤니케이션
전략적 통찰을 주는 분석은 단순 통계나 데이터 처리와 관련된 지식 외에 인문학적 요소
(3) 모델 범위 바깥의 요인은 판단하지 않는다. ★
- 분석의 객관성에 의문을 제기하고 모델에 포함된 가정과 해석의 개입 등의 한계를 고려
- 가정들과 현실의 불일치에 대해 끊임없이 고찰하고 모델의 능력에 대해 항상 의구심 가짐
(4) 가트너(Gartner)가 정의한 데이터 사이언티스트의 역량 ★ (하드스킬 없음 주의!!)
: 데이터 관리, 분석 모델링, 비즈니스 분석, 소프트 스킬 (공통점은 호기심에서 시작)
# 전략적 통찰력과 인문학의 부활 ★
(1) 외부 환경적 측면에서 인문학 열풍의 이유 (빅데이터분석기법 확대 아님!!)
- 단순세계화 → 복잡 세계화
- 컨버전스(규모의 경제, 표준화) → 디버전스(복잡한 세계, 다양성)
- 비즈니스 중심이 상품 생산 → 서비스
- 고장나지 않은 상품 → 뛰어난 서비스
- 생산 → 시장창조
- 공급자 중심 → 무형자산 경쟁(현지사회, 문화)
(2) 창의적 관점, 비즈니스 핵심가치 이해, 고객과 직원의 내면적 요구 이해하는 능력
# 정보 vs 통찰력
과거 | 현재 | 미래 | |
정보 | 무슨일이 일어났는가? ex) 리포팅(보고서) |
무슨일이 일어나고 있는가? ex) 경고 |
무슨일이 일어날것인가? ex) 추출 |
통찰력 | 어떻게, 왜 일어났는가? ex) 모델링, 실험설계 |
차선 행동은 무엇인가? ex) 권고 |
최악,최선의 상황은? ex) 예측, 최적화 |
# 의사결정 오류
- 로직(논리)오류 : 부정확한 가정을 하고 테스트하지 않음
- 프로세스 오류 : 결정에서 분석과 통찰력을 고려하지 않은 것
데이터 수집이나 분석이 너무 늦어 사용할 수 없게 되는 것
대안을 진지하게 고려하지 않은것 - 가치 패러다임의 변화 : Digitalization - Connection - Agency
'Certificate > ADSP' 카테고리의 다른 글
[ADSP] 3과목 - 5장 1-2. 데이터마이닝,성과분석,ROC/ 분류분석, 지니계수 (0) | 2022.10.11 |
---|---|
[ADSP] 3과목 - 4장. 시계열 분석, 다차원척도법(MDS), 주성분 분석(PCA) (0) | 2022.10.10 |
[ADSP] 3과목 - 4장.통계분석, 기초통계분석, 회귀분석 (0) | 2022.10.09 |
[ADSP] 3과목 1-3장. 데이터 분석, R, 데이터마트 (0) | 2022.10.09 |
[ADSP] 2과목 - 데이터 분석 기획, 빅데이터, 분석 마스터 플랜 (0) | 2022.10.06 |
댓글