본문 바로가기
Certificate/ADSP

[ADSP] 1과목. 데이터, 데이터베이스, 빅데이터

by Istj_eff 2022. 10. 5.

1장.데이터

# 데이터

- 데이터는 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실(fact)

- 추론, 예측, 전망, 추정을 위한 근거(bias)로 기능하는 특성을 갖음

- 다른 객체와의 상호관계 속에서 가치를 찾음

 

# 데이터의 유형 (두개 헷갈리지 말기!)

(1) (qualitative) 데이터

- 형태와 형식이 정해져있지않아 저장/검색/분석하는데 많은 비용과 기술적 투자가 수반된다.

- 언어, 문자로 기술

ex) 설문조사 주관식 응답, sns에 올린글, 기상특보 등 비정형 데이터

 

(2) (quantitative) 데이터

- 데이터의 양이 크게 증가하더라도 저장, 검색, 분석하여 활용하기 용이하다.

- 수치, 도형, 기호 등으로 표시

ex) 지역별 온도, 풍속, 강우량

 

 

# 지식경영의 핵심 이슈

- 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용에 중요한 역할을 한다.

- 개인의 암묵지와 집단에서의 형식지가 나선형의 형태로 회전하면서 생성,발전,전한되는 지식의 발전을 기반으로한 기업의 경영

구분 의미
암묵지 학습과 경험을 통해 개인에게 습득되어
있지만 겉으로 드러나지 않는 지식
김치 담그기, 자전거타기
형식지 문서나 매뉴얼처럼 형상화된 지식 교과서, 비디오, DB,
회계,재무 관련 대차대조표에 요구되는 지식의 매뉴얼

 

1. 암묵지

- 사회적으로 중요하지만 다른 사람에게 공유되기 어렵다.

- 개인에게 축적된 내면화된 지식이 조직의 지식으로 공동화 된다.

 

2. 형식지

- 전달과 공유가 용이하다.

- 언어, 기호, 숫자로 표준화된 지식이 개인의 지식으로 연결화 된다.

 

 

# SECI모델 ★★

(SocializationExternalization-Combination-Internalization Model) 

- 암묵지+형식지의 4단계 지식전환 모드

 

1) 공동화 (-) : 경험을 공유를 통해 새로운 암묵지 창조 

  - 암묵지 지식 노하우를 다른 사람에게 알려주기

 

2) 표출화 (-) : 암묵지에서 구체적인 개념을 도출하여, 암묵지를 형식지로 표출

  - 암묵적 지식 노하우  책이나 교본 등 형식지로 만들기

 

3) 연결화 (-) : 표출된 형식지의 완성도를 높여 지식체계로 전환

  - 책이나 교본(형식지) 자신이 알고 있는 새로운 지식(형식지) 추가하기

 

4) 내면화 (-) : 표준화와 연결화로 공유된 기술적 노하우가 개인의 암묵지로 변환

 - 만들어진 책이나 교본(형식지)를 보고 다른 직원들이 암묵적 지식(노하우)을 습득

* ‘ㄱ', 'ㄴ’ 사이에 ‘표연’있음!

 

 

# DIKW 피라미드 (데 정 식 혜) ★ 무조건 암기!!

구분 의미 예 ★
지혜
(wisdom)
지식의 축적과 아이디어가 결합된 창의적인 산물
근본 원리에 대한 깊은 이해 바탕으로 도출되는 창의적인 아이디어.
A마트의 다른 상품들도
B마트보다 더 쌀 것이라고 판단한다.
지식 
(knowlegde)
데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것.

상호 연결 정보 패턴을 이해여 이를 토대로 예측한 결과
상대적으로 저렴한
A마트에서 연필을 사야겠다.
정보 
(information)
데이터의 가공 및 상관관계 속에서 이해를 통해 패턴을 인식하고 그 의미가 도출된 것 A마트의 연필이
더 싸다.
데이터 
(data)
개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실.
존재형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미
A는 100원, B는 200원에 연필을 판매

 

# 데이터(자료) 양의 단위

- 일반적으로 8개의 비트를 하나로 묶어 1 Byte라 하고 있으며, 1 Byte가 표현할 수 있는 정보의 개수는 2 8제곱 = 256개가 된다.

- 바이트는 256종류의 정보를 나타낼 수 있어 숫자, 영문자, 특수문자 등 모두 표현가능

b < B < KB < MB < GB < TB < PB < EB < ZB < YB  (페지로 외우기)

 

 

# 인덱스 

데이터베이스 내의 데이터를 신속하게 정렬하고 탐색하게 해주는 구조.

원하는 형태의 배열과 찾아보기를 가능하게 해주는 기능.

 

 

 


2장. 데이터베이스

데이터 베이스

문자, 기호, 음성, 화상, 영상 등 상호 관련된 다수의 콘텐츠를 정보 처리 및 정보통신 기기에 의해 체계적으로 수집·축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체

 

데이터베이스의 특징  

(영어도 암기, 웨어하우스랑 헷갈리지말기!)

 

(1) 통합된 데이터(integrated data)

  • 동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미.
  • 데이터 중복은 관리상 복잡한 부작용 초래

(2) 저장된 데이터(stored data)

  • 자기디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장매체에 저장되는 것.
  • 데이터베이스는 기본적으로 컴퓨터 기술을 바탕으로 한 것

(3) 공용 데이터(shared data)

  • 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미.
  • 대용량화 되고 구조가 복잡하다. 프로그램 생산성 향상

(4) 변화되는 데이터(changeable data) (무결성)

  • 데이터베이스에 저장된 내용은 곧 데이터베이스의 현 상태를 나타냄.
  • 데이터 삽입, 삭제, 갱신으로 항상 변화하면서도 현재의 정확한 데이터를 유지해야함

 

# 데이터베이스의 설계 절차 

요구사항 분석 > 개념적 설계(E-R모델) > 논리적 설계 > 물리적 설계

 

# DBMS

  • DBMS : 사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보처리, 관리
  • RDBMS : 정형화된 테이블로 구성된 데이터 항목들의 집합체(MySQL, Oracle Database)
  • ODBMS : 객체지향 DB 관리 시스템. 복잡한 데이터 구조를 표현 및 관리하는 DBMS

 

# NoSQL (MongoDB, Apache HBase, Redis)

  • 관계형DB보다 덜 제한적인 일관성 모델을 이용하는 데이터 저장 및 검색을 위한 메커니즘 제공, 디자인 단순화, 수평적 확장성, 세세한 통제 등 포함

 

# OLTP (On-Line Transaction Processing, 온라인 거래 처리) 

  • 여러 단말에서 온 메시지를 호스트 컴퓨터가 데이터베이스를 액세스하고 바로 처리 결과를 돌려보내는 형태. 데이터베이스의 데이터를 수시로 갱신하는 프로세싱을 의미한다.

예) 주문 입력 시스템, 재고 관리 시스템 등

 

 

# OLAP (On-Line Analytical Processing. 온라인 분석 처리)

  • 다차원으로 이루어진 데이터로부터 통계적인 요약 정보를 제공할 수 있는 기술
  • 다차원의 데이터를 대화식으로 분석하기 위한 SW

예) 10년간 A사의 직급별 임금 상승률

 

 

Data Warehouse

  • 기업 내의 의사결정 지원 애플리케이션을 위한 정보를 제공하는 하나의 통합된 데이터 저장 공간
  • 방대한 조직내에서 효율적인 의사결정 시스템을 위한 기초를 제공하는 정보관리시스템
  • ETL : 추출, 변환, 적재(Extract, Transform, Load)
  • 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 데이터 웨어하우스에 정보를 적재한다.
  • 데이터들은 시간적 흐름에 따라 변화하는 값을 일정기간 유지

 

데이터 웨어하우스의 4대 특성

  • 데이터의 통합 : 데이터들은 전사적 차원에서 일관된 형식으로 정의됨
  • 데이터의 시계열성 : 관리되는 데이터들은 시간의 흐름에 따라 변화하는 값을 저장함
  • 데이터 주제 지향적 : 특정 주제에 따라 데이터들이 분류, 저장, 관리됨
  • 비소멸성(비휘발성) : Batch작업에 의한 갱신이외에 변하지 않음(빈번한 삽입, 삭제아님)

 

Data Mart

  • 전사적으로 구축된 데이터 웨어하우스로부터 특정 주제, 부서 중심으로 구축된 소규모 단일 주제의 데이터 웨어하우스
  • 재무, 생산, 운영과 같이 특정 조직의 특정 업무 분야에 초점을 두고 있음

 

# CRM (CustomerRelationship Management) ★★

  • 기업 내부 데이터베이스를 기반으로 고객과 관련된 자료를 분석·통합해 고객에 대한 이해를 돕고 이를 토대로 각종 마케팅 활동을 계획·지원·평가하고 높은 이익을 창출하는 솔루션
  • 단순한 정보 수집에서 탈피, 분석 중심의 시스텍 구축 지향

 

# SCM (SupplyChain Management) ★★

  • 원재료의 생산·유통 등 모든 공급망 단계를 최적화하고, 정보기술을 활용하기위한 솔루션
  • 외부 공급업체, 제휴업체와 통합된 정보시스템으로 연계하여 시간,비용 최적화
  • 자재구매 데이터, 생산, 재고 데이터, 유통/판매 데이터, 고객데이터로 구성됨

 

# ERP (EnterpriseResourcePlanning) ★★

  • 인사·재무·생산 등 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 경영자원을 하나의 통합 시스템으로 재구축함으로써 생산성을 극대화하려는 경영혁신기법
  • 제조업을 포함한 다양한 비즈니스 분야에서 생산, 구매, 재고, 주문, 공급자와의 거래, 고객서비스제공 등 주요 프로세스 관리를 돕는 여러 모듈로 구성된 통합 애플리케이션

 

# KMS (KnowledgeManagement System,지식관리시스템) ★★

  • 조직 내 구성원이 축적하고 있는 노하우 등 암묵적 지식을 형식지로 표출화 될 수 있도록 지원하는 등, 조직의 경쟁력 향상을 위해 지식 자원을 체계화 하고 원활하게 공유될 수 있도록 지원하는 시스템
  • 기업 내부 데이터베이스 솔루션인지 아닌지 구분할수 있어야함SCM,CRM,ERP,KMS 암기

 

BI (Business Intelligence) 

  • 기업의 Data Warehouse에 저장된 데이터에 접근해 경영의사결정에 필요한 정보를 획득하고 이를 경영활동에 활용하는 것
  • 데이터를 통합/분석하여 기업활동에 연관된 의사결정을 돕는 프로세스 
  • , 기업의 사용자가 더 좋은 의사결정을 하도록 데이터 수집, 저장, 분석, 접근을 지원하는 응용시스템과 기술
  • 하나의 특정 비즈니스 질문에 답변하도록 설계
가트너의 정의
‘여러 곳에 산재되어 있는 데이터를 수집하여 체계적이고 일목요연하게 정리함으로써 사용자가 필요로 하는 정보를 정확한 시간에 제공할 수 있는 환경’

 

# BI와 비교하여 빅데이터 분석에 대한 키워드

- Information, Ad hoc Report, Alerts, Clean Data

 

 

# ad hoc report

- BI와 빅데이터 분석의 차이점을 표현한 키워드

- Optimization, forecast, insight : 빅데이터 분석 관련 키워드임

 

 

BA (Business Analytics)  

(BI랑 헷갈리지말기)

  • 경영 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법 
  • 성과에 대한 이해와 비즈니스 통찰력에 초점을 준 분석 방법
  • 사전에 예측하고 최적화하기 위한 것으로 BI 보다 진보된 형태

 

# 메타데이터 

데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해주는 데이터.

 

 

데이터 마이닝(Data Mining)

  • 대용량 데이터로부터 의미있는 관계, 규칙, 패턴, 숨겨진 지식을 찾는 과정
  1. 목적 설정
  2. 데이터 준비 (데이터 클렌징)
  3. 가공(목표변수정의, 마이닝 소프트웨어)
  4. 기법 적용
  5. 검증

 

데이터 유형 

유형 내용 예시
정형 데이터 - 형태 있고 연산 가능, 데이터 자체 분석가능
- 주로 관계형 데이터베이스에 저장됨데이터 수집 난이도가 낮고, 형식이 정해져 있어 처리가 쉬움
관계형 데이터베이스,
Demand Forecast 
ERP, CRM
csv, 스프레드시트,
Transaction data,
반정형 데이터 형태(스키마, 메타데이터)가 있으며 연산이 불가능
- 주로 파일로 저장됨 
보통 API 형태로 제공되기 때문에 데이터 처리기술(파싱)이 요구
- Competitor Pricing 
XML, HTML, JSON,
report, 모바일데이터,
기기에서 생성된 데이터,
로그데이터, 센서데이터
메타데이터, 스키마,
비정형 데이터 - 형태가 없으며 연산이 불가능
- 주로 NoSQL에 저장됨- 데이터 수집 난이도가 높으며 처리가 어려움
E-mail Records 
E-mail 전송 데이터,
페이스북소셜데이터
검색어,음성영상문자

 

# 객체지향 DBMS 

  •  정보를 객체 형태로 표현하는 데이터베이스 모델 ⇒ 복잡한 데이터 구조를 표현 및 관리

 

# RFID

  • 무선주파수(RF,Radio Frequency)를 이용해 대상을 식별하는 기술

 

# NEIS 

사회기반사회기반구조로서의 데이터베이스

  • 교육부문 - NEIS
  • 지리/교통부문 - ITS, LBS, SIM, GIS
  • 물류부문 - CVO
  • 의료부문 - 의료EDI ( 표준화된 양식을 통해 전자문서 교환)
    정부는 사회간접자본차원에서 EDI를 활용하여 부가가치통신망을 통해 정보망을 구축하였음.
  • CALS ( Commerce At Light Speed ) : 전자상거래 구축을 위해 제품의 라이프 사이클 전반에 관련된 데이터를 통합, 공유, 교환구조로써의 데이터베이스

 

# 블록체인(Block chain)

  • 기존 금융회사의 중앙 집중형 서버에 거래 기록을 보관하는 방식에서 벗어나 거래에 참여하는 모든 사용자에게 거래 내용을 보여주며 거래때마다 이를 대조하는 데이터 위조방지기술
  • 그 외에 EAI, EDW, ERP, e-CRM 등이 있다.
  • 네트워크에 참여하는 모든 사용자의 거래 내역 등의 데이터를 분석, 저장하는 기술을 지칭하는 용어. 공공거래장부, 분산거래장부로 불리기도 한다.

 

# 신용평가

핀테크 분야에서 빅데이터 활용이 가장 핵심적인 분야

 


3장. 빅데이터

1. 빅데이터의 정의

(1) 4V (ROI, Return On Investment, 투자자본수익률 관점에서 보는 빅데이터)

  • Volume (양): 데이터의 규모 측면
  • Variety (다양성): 데이터의 유형과 소스 측면
  • Velocity (속도): 데이터의 수집과 처리 측면
  • Value (가치) : 비즈니스 효과요소
  • 투자비용요소 : 3V (volume,variety,velocity) ★

(2) 인재, 조직 변화까지 포함해 넓은 관점에서의 정의

(3) 그 밖의 정의

  • 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 ★
  • 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처 ★

 

1-1. 빅데이터의 출현배경 

  • 산업계에서 일어난 변화를 보면 빅데이터의 현상은 양질 전환 법칙으로 설명할 수 있다.
    • 양질전환법칙 : 일정한 양이 누적되면 어느 순간 질적인 비약이 이루어짐
  • 빅데이터는 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 "변화"를 말한다.
  • 트위터, 페이스북 SNS  비정형 데이터의 급격한 확산 
  • 디지털화, 저장기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 등 관련 기술발전과 관련
    • 클라우드 컴퓨팅 활용 : 빅데이터 처리 비용 감소의 결정적 기술 
       빅데이터 분석에 경제성을 제공   ex) 하둡
    • 클라우드 분산 병렬처리 컴퓨팅은 대용량 데이터 처리 비용을 획기적으로 줄임

 

2. 데이터의 가치 측정이 어려운 이유 

  • 데이터 재사용, 재조합, 다목적용 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 사용했는지 알기 힘들기 때문
  • 빅데이터는 기존에 존재하지 않던 가치를 창출하기 때문
  • 분석 기술의 발전으로 지금은 가치없는 데이터도 새로운 분석 기석기법의 등장으로 거대한
    = 가치를 만들어내는 재료가 될 가능성이 있다.

3. 빅데이터의 상호관계 

사물 인터넷(사물끼리 정보를 주고받는 기능) ☆ ㅡ Datafication(데이터화) 

 

4. 빅데이터에 거는 기대

석탄,  제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회/경제/문화 전반에 혁명적 변화를 가져올 것으로 기대
원유 - 각종 비즈니스, 공공기관 대국민 서비스, 경제성장에 필요한 정보를 제공
으로써 산업 전반의 생산성을 한 단계 향상
- 기존에 없던 새로운 범주의 산업을 만들어 낼 것으로 전망
렌즈 - 렌즈를 통해 현미경이 생물학에 미쳤던 영향만큼 데이터가 산업 발전에 영향을 미칠 것
- 구글 ‘Ngram Viewer'를 통해 수천만 권의 책을 디지털화
플랫폼 - 비즈니스 측면에서는 공동 활용의 목적으로 구축된 유/무형의 구조물
- 페이스북과 같이 다양한 사업자들이 공동으로 사용하는 플랫폼을 빅데이터 형태로 제공할것으로 예상
- 각종 사용자 데이터와 센서 데이터를 수집하고 API를 공개하면서 서드파티 사용자들이 활용하는 플랫폼 역할 기대
ex) kakao, facebook

 

5. 빅데이터가 만들어 내는 본질적인 변화  (사후, 전수, , 상관)

(1) 사전처리  사후처리

필요한 정보만 수집, 필요하지 않은 정보는 버리는 시스템  가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다.

 

(2) 표본조사  전수조사

표본을 조사하는 기존의 지식 발견 방식이 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 인해 전수조사로 변화하게 된다. 이에 따라 샘플링이 주지 못하는 패턴이나 정보를 찾을 수 있게 된다.

 

(3)   

데이터가 지속적으로 추가될 때 양질의 정보가 오류보다 많아져 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 두고 변화

ex) 구글의 자동 번역 시스템 (Volume) 

 

(4) 인과관계  상관관계

상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의해 미래 예측을 점점 더 압도해 가는 시대가 도래하게 될 것으로 전망된다.

 

 

5-1. 빅데이터 활용 3요소 ★★ (인프라, 프로세스 아님!!!!)

데이터 모든 것의 데이터화
기술 진화하는 알고리즘, 인공지능
인력 데이터 사이언티스트, 알고리즈미스트

 

 

5-2. 빅데이터 활용 사례 

  • 구글 검색엔진, 실시간 자동변역 시스템
  • 월마트의 고객 소비 패턴 분석, IBM 왓슨 - 의료분야에 활용
  • 넷플릭스의 영화 추천 알고리즘 Cinematch
  • 자라의 일일 판매량을 실시간 데이터 분석으로 상품 수요를 예측
  • 정부의 실시간 교통정보 활용, CCTV 국가 안전에 활용
  • 사회관계망분석을 통한 현상분석, 가수의 팬 음악청취 기록 분석 활용
  • 아마존의 킨들(Kindle,전자책 전용 단말기)에 쌓이는 전자책 읽기 관련 데이터를 분석해 저자들에게 제공

 

 

5-3. 산업별 분석 애플리케이션

산업 일차원적 분석 애플리케이션
금융 서비스 신용점수 산정, 사기 탐지, 가격 책정, 프로그램 트레이딩, 클레임 분석,
고객 수익성 분석
소매업 판촉, 매대 관리, 수요 예측, 재고 보충, 가격 및 제조 최적화
제조업 공급사슬 최적화, 수요예측, 재고 보충, 보증서 분석, 맞춤형 상품 개발
에너지  트레이딩, 공급/수요 예층
온라인 웹 매트릭스, 사이트 설계, 고객 추천

 

 

6. 플랫폼형 비즈니스 모델 

상품, 서비스, 기술 등의 기반 위에 다른 이해관계자들이 보완적인 상품, 서비스, 기술을 제공하는 생태계 구축을 목표로 하는 비즈니스 모델

협의의 분석 플랫폼 : 데이터 처리 프레임 워크 

 

 

7. 맵리듀스 

구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작하여 004년 발표한 소프트웨어 프레임 워크

 

 

8. 데이터 레이크

  • 별도로 정제되지 않은 자연스러운 상태의 아주 큰 데이터 세트
  • 지난 몇 년간 여러 사일로 대신 하나의 데이터 소스를 추구하는 경향이 생겼다. 전사적으로 쉽게 인사이트를 공유하는데 도움이 되기 때문이다.

 

9. 비즈니스 모델 캔버스(Business Model Canvas)  (그림암기)

  • 암기 순서) ㄱ&ㄱ / 업 제 고 / 지원 인프라
  • 비즈니스 모델을 일목묘연하게 보여주는 그래픽 템플릿
  • 9개로 구성된 중요한 비즈니스 영역/블록들의 유기적인 연결을 통해 기업이 가치를 창출하고 전달하고 획득하는 원리를 9가지 요소로 분석

 Customer Segments(고객 세그먼트)

 Channel(채널) 

  • 기업이 고객에게 가치를 제안하기 위해 커뮤니케이션하고 상품이나 서비스를 전달하는 방법
  • 커뮤니케이션, 물류, 판매채널 등 기업과 고객의 인터페이스 전반이 바로 채널이다. (유통채널은 아님!!)
  • 기업이 제공하는 상품이나 서비스에 대한 고객의 이해를 높여준다.
  • 고객에게 밸류 프로포지션(가치 제안)을 전달한다.
  • 구매고객에 대한 에프터서비스(a/s)를 제공한다.
  • 고객세그먼트에 따라 어떤 채널을 사용할 것인지, 어떤 채널을 사용해야 고객에게 효과적으로 가치를 전달하고 기업 입장에서는 수익을 극대화할 수 있는지에 대한 부분

 Customer Relationships(고객 관리)

 Key Resources(핵심 자원)

 Revenue Streams(수익원)

 Key Activities(핵심활동)

 Key Partnerships(핵심 파트너)

 Cost Structure(비용 구조)

 

 

10. 빅데이터 활용 기본 테크닉 

연관규칙학습
(Association rule Learning)
- 변수간에 주목할 만한 상관관계가 있는지 찾아내는 방법 (3과목 연관분석의 지지도, 신뢰도, 향상도)
) 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
     우유 구매자가 기저귀도 같이 구매하는가?
유형분석
(Classification tree Analysis)
- 이 사용자는 어떤 특성을 가진 집단에 속하는가? 와 같은 문제해결에 사용
) 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용
유전자 알고리즘 ★ 
(Generic Algorithms)
- 최적화가 필요한 문제의 해결책 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화시켜 나가는 방법 (적자 생존)
- 생명의 진화를 모방하여 최적해(Optimal Solution)를 구하는 알고리즘으로 존 홀랜드(John Holland) 1975에 개발하였다.
) 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
      응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?
기계학습
ex)추천시스템 (기 추!)
- 훈련 데이터로 부터 학습한 알려진 특성을 활용해 예측하는 일에 사용
) 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까? (넷플릭스 추천 시스템)
회귀분석
ex)충성도 (회 충!)
- 선형함수로 나타낼수 있는 수치데이터 분석. 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 인과관계를 파악
) 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
     고객 만족도가 충성도에 어떤 영향을 미치는가?
감정분석 
(감성분석)
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석   ex) 트위터 형용사 분석
- 특정 주제에 대한 긍정/부정 의견 분석  주관적 평가를 측정 (주로 문장이나 단어가 분석의 대상)
- 호텔에서 고객의 논평을 받아 서비스를 개선하기 위해 활용
- 소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아낼 때 활용
) 새로운 환불 정책에 대한 고객의 평가는 어떤가?
소셜 네트워크 분석 ★ 
(사회 관계망 분석, SNA)
- 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력 있는 사람을 찾아낼 때 사용 (SNS 고객들 소셜 관계 파악)
) 고객들 간 관계망은 어떻게 구성되어 있나? 최근 핀테크 기업에서 대출 제공시 활용

 

 

11. 빅데이터 시대의 위기 요인

  내용 / 사례 해결책
사생활 침해 - 개인정보가 포함된 데이터를 본래목적 외에 활용할 경우 사생활 침해를 넘어 사회, 경제적 위협으로 변형될 수 있다. - 동의제에서 책임제로 전환 (개인정보 사용자에게 책임을 지움으로써 개인정보 사용주체가 보다 적극적인 보호장치를 강구하게 하는 효과 발생)
- 익명화(Anonymization):개인 식별저보를 삭제하거나 알아볼 수 없게 변환
) 여행 사실을 트윗한 사람의 집을 강도가 노리는 사례 발생
책임 원칙 훼손 - 빅데이터 기본 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이
되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 올라간다.
- 결과 기반 책임 원칙 고수
- 기존의 책임원칙을 강화
) 범죄 예측 프로그램을 통해 범죄 전 체포
데이터 오용 - 빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다.
- 또한 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있다.
- 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러올 수 있다.
알고리즘 접근 허용 및 객관적인 인증방안 도입 필요성 제기
알고리즘에 대한 접근권을 제공하여 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문한다.
 알고미즈미스트는 데이터오용의 피해를 막고, 구제해주는 전문가 ★

 

# 개인정보 비식별화 기법 

  • 데이터 마스킹(Masking) : 정보를 보호하는데 사용. 데이터를 익명으로 생성 (홍**)
  • 데이터 범주화 : 범주화, 단일식별 정보를 해당 그룹의 대표값으로 변환 (홍씨, 30~40세)
  • 가명처리 : 다른값으로 대체 (홍길동 → 임꺽정)
  • 잡음 첨가 : 자료값에 잡음 추가, 곱셈으로 원래 자료를 변형해서 공개
  • 총계처리/평균값 대체 : 총합 값으로 대체 (키 합:750cm, 평균키:185cm)
  • 데이터 값 삭제 : 개인 식별에 중요한 값 삭제 (90년대 생, 남자)
  • 난수화 : 고객구매기록이나 나이,수입 같은 데이터를 해독 불가능하게 난수화, 무작위 처리

 

# 잊혀질 권리

온라인 또는 SNS상에서 생성,저장,유통되는 개인의 사진이나 거래 정보를 삭제, 수정, 파기를 요청할 수 있는 권리

 

 

# 빅데이터 열풍

  • 빅데이터 분석은 데이터의 양이 아닌 유형의 다양성과 관련이 있다.
  • 일차적 분석 경험이 증가하고 분석의 활용 범위를 더 넓고 전략적으로 변화시켜야함

 

# 데이터 사이언스 

  • 데이터로부터 의미있는 정보를 추출해내는 학문 ★
  • 정형,반정형,비정형의 다양한 유형의 데이터를 대상으로 함
  • 분석뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지를 포함한 포괄적 개념
  • 데이터 공학, 수학, 통계학, 시각화, 해커의 사고방식 해당분야의 전문지식을 종합한 학문임
     총체적(holistic) 접근법을 사용함
  • 과학과 인문학의 교차로에 있음 ⇒ 스토리텔링, 커뮤니케이션, 창의력, 직관력, 열정 필요

 

# 데이터 사이언스의 핵심 구성요소

  • IT(Data Management) 영역
  • 분석적 영역
  • 비즈니스 컨설팅 영역

(데이터 시각화는 다른 영역!!)

 

 

# 데이터 기반 분석의 상관관계, 통계적 분석의 인과관계

- 실시간 상관관계 분석에서 도출된 인사이트를 바탕으로 수익창출 기회가 점점 늘어남

- 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의한 미래 예측을 점점 더

압도해 가는 시대가 도래하고 있음 (특정 현상의 발생가능성이 포착)

 

 

# 데이터 사이언티스트의 요구역량 (하드스킬과 소프트스킬을 동시에 갖춰야함!)

(1) 하드스킬(Hard Skill)

- Machine Learning, Modeling, Data Technical Skill 

- 빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득

- 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적

 

(2) 소프트 스킬(Soft Skill)

- 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판

- 설득력 있는 전달 : 스토리텔링, 시각화

- 다분야 간 협력 : 커뮤니케이션

전략적 통찰을 주는 분석은 단순 통계나 데이터 처리와 관련된 지식 외에 인문학적 요소

 

(3) 모델 범위 바깥의 요인은 판단하지 않는다. 

- 분석의 객관성에 의문을 제기하고 모델에 포함된 가정과 해석의 개입 등의 한계를 고려

- 가정들과 현실의 불일치에 대해 끊임없이 고찰하고 모델의 능력에 대해 항상 의구심 가짐

 

(4) 가트너(Gartner)가 정의한 데이터 사이언티스트의 역량  (하드스킬 없음 주의!!)

: 데이터 관리, 분석 모델링, 비즈니스 분석, 소프트 스킬 (공통점은 호기심에서 시작)

 

 

# 전략적 통찰력과 인문학의 부활 

(1) 외부 환경적 측면에서 인문학 열풍의 이유 (빅데이터분석기법 확대 아님!!)

  1. 단순세계화 → 복잡 세계화
    • 컨버전스(규모의 경제, 표준화)  디버전스(복잡한 세계, 다양성)
  2. 비즈니스 중심이 상품 생산  서비스
    • 고장나지 않은 상품  뛰어난 서비스
  3. 생산  시장창조
    • 공급자 중심  무형자산 경쟁(현지사회, 문화)

(2) 창의적 관점, 비즈니스 핵심가치 이해, 고객과 직원의 내면적 요구 이해하는 능력

 

 

# 정보 vs 통찰력

  과거 현재 미래
정보 무슨일이 일어났는가?
ex) 리포팅(보고서)
무슨일이 일어나고 있는가?
ex) 경고
무슨일이 일어날것인가?
ex) 추출
통찰력 어떻게, 왜 일어났는가?
ex) 모델링, 실험설계
차선 행동은 무엇인가?
ex) 권고
최악,최선의 상황은?
ex) 예측, 최적화

 

# 의사결정 오류

  • 로직(논리)오류 : 부정확한 가정을 하고 테스트하지 않음
  • 프로세스 오류 : 결정에서 분석과 통찰력을 고려하지 않은 것
    데이터 수집이나 분석이 너무 늦어 사용할 수 없게 되는 것
    대안을 진지하게 고려하지 않은것
  • 가치 패러다임의 변화 : Digitalization - Connection - Agency

 

 

 

 

 

댓글