Certificate/ADSP
[ADSP] 3과목 - 5장 1-2. 데이터마이닝,성과분석,ROC/ 분류분석, 지니계수
Istj_eff
2022. 10. 11. 23:55
1절. 데이터마이닝
1. 데이터 마이닝
: 대용량 데이터로부터 의미있는 관계, 규칙, 패턴을 찾는 과정
통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만 데이터 마이닝은 다양한 수리 알고리즘을 이용해 데이터 베이스의 데이터로부터 의미있는 정보를 찾아내는 방법을 통칭한다.
1-2. 데이터마이닝의 종류
정보를 찾는 방법론에 따른 종류 | 인공지능(Artificial Intelligence) 의사결정나무(Decision Tree) K-평균군집합(K-means Clustering) 연관분석(Association Rule) 회귀분석(Regression) 로짓분석(Logit Analysis) 최근접이웃(Nearest Neighborhood) |
분석대상, 활용목적, 표현방법에 따른 분류 | 시각화분석(Visualization Analysis) 분류(Classification) 군집화(Clustering) 포케스팅(Forecasting) |
1-2. 사용분야
- 병원에서 환자 데이터를 이용해서 해당 환자에게 발생 가능성이 높은 병을 예측
- 기존 환자가 응급실에 왔을 때 어떤 조치를 먼저 해야 하는지를 결정
- 고객 데이터를 이용해 해당 고객의 우량/불량을 예측해 대출적격 여부 판단
- 세관 검사에서 입국자의 이력과 데이터를 이용해 관세물품 반입 여부를 예측
1-2. 데이터마이닝의 최근 환경
- 데이터마이닝 도구가 다양하고 체계화되어 환경에 적합한 제품을 선택하여 활용 가능하다.
- 알고리즘에 대한 깊은 이해가 없어도 분석에 큰 어려움이 없다.
- 분석 결과의 품질은 분석가의 경험과 역량에 따라 차이가 나기 때문에 분석 과제의 복잡성이나 중요도가 높으면 풍부한 경험을 가진 전문가에게 의뢰할 필요가 있다.
- 2000년대에 비즈니스 관점에서 데이터마이닝이 CRM의 중요한 요소로 부각되었다.
1-3. 데이터 마이닝의 추진단계
- 목적설정
- 데이터 준비 ★
- 데이터 정제를 통해 데이터 품질을 보장하고, 필요시 데이터를 보강하여 충분한 양의 데이터를 확보
- 가공 ★
- 모델링 목적에 따라 목적 변수 정의
- 필요한 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있는 형식으로 가공
- 기법 적용
- 검증
2. 분석 목적에 따른 작업 유형과 기법
예측 (Predictive Modeling) |
분류 규칙 (Classification) |
- 가장 많이 사용되는 작업 - 과거 데이터로부터 고객특성을 찾아내어 분류모형을 만듬 - 이를 토대로 새로운 레코드의 결과값을 예측 - 목표 마케팅 및 고객 신용평가 모형에 활용됨 |
회귀분석 판별분석 신경망 의사결정나무 |
설명 (Descriptive Modeling) |
연관 규칙(Association) | - 데이터 항목간의 종속관계를 찾아내는 작업 - 교차판매(Cross Selling), 매장진열(Display), 첨부우편(Attached Mailings), 사기적발(Fraud Detection) 등의 다양한 분야에 활용됨 |
동시 발생 매트릭스 |
연속 규칙(Sequence) | - 연관 규칙에 시간관련 정보가 포함된 형태 - 고객의 구매이력(History) 속성이 반드시 필요 - 목표 마케팅(Target Marketing) 이나 일대일 마케팅(One to One Marketing)에 활용됨 |
동시 발생 매트릭스 |
|
데이터 군집화(Clustering) | - 고객 레코드들을 유사한 특성을 지난 몇 개의 소 그룹으로 분할하는 작업 - 작업의 특성이 분류규칙(Classification)과 유사하나 분석대상 데이터에 결과값이 없음 - 판촉활동이나 이벤트 대상을 선정하는데 활용됨 |
군집분석 |
3.성과분석 오분류에 대한 추정치 ★★★★★
정분류율(Accuracy) | - 전체 관측치 중 실제값과 예측치가 일치한 정도 - 실제가 P일때 예측도 P, 실제가 N일때 예측도 N인 지점 (제대로 맞춘지점)/전부다 - TP + TN / TP + FN + FP + TN |
오분류율(Error rate) | - 모형이 제대로 예측하지 못한 관측치 (= 1-정분류율) |
재현율(Recall) =민감도(Sensitivity) |
- 실제 True인 관측치 중 예측치가 적중한 정도 - 모형의 완전성을 평가하는 지표 - 실제가 P이고 예측도 P인 지점 / 실제가 P인 지점들 - TP / TP + FN |
특이도(Specificity) | - False로 예측한 관측치 중 실제 값이 False인 정도 - 실제가 N이고 예측도 N인 지점 / 실제가 N인 지점들 - TN / FP + TN |
정밀도 (Precison) | - True로 예측한 관측치 중 실제 값이 True인 정도 - 실제가 P일때 예측도 P인 지점 / 예측을 P로 한 지점들 - 식 : TP / (TP + FP) |
F1지표 | - 재현율과 정확도의 가중조화평균값 |
3-1. F점수 ★★
- 정확도에 주어지는 가중치를 베타(beta)라고 한다.
- 베타가 1인 경우를 특별히 F1점수라고 하고 값이 높을수록 좋음 ★
- 데이터가 불균형 할 때 사용
- 베타가 2인 경우, 재현율에 2배만큼의 가중치를 부여하여 조화평균을 하는 것이다. ★
- 2 * 정밀도(Precision) * 재현율(Recall) / 정밀도(Precision) + 재현율(Recall)
FP Rate 식 : FP / (FP + TN), 1 - Specificity(특이도)
FP Rate : 실제가 N인데 예측이 P로 된 비율 (Y가 아닌데 Y로 예측된 비율, 1종 오류)
4. ROC 그래프
- X축을 FPR(False Positive Rate=1-특이도)값으로 두고, Y을 TPR(Ture Positive Rate, 민감도)값으로 두어 시각화한 그래프이다.
- 2진 분류(Binary Classfication)에서 모형의 성능을 평가하기 위해 많이 사용되는 척도이다.
- 그래프가 왼쪽 상단에 가깝게 그려질수록 올바르게 예측한 비율은 높고, 잘못 예측한 비율은 낮음을 의미한다.
- 곡선 아래의 면적 AUROC(Area Under ROC) 값이 크면 클수록(1에 가까울수록) 모형의 성능이 좋다고 평가한다.
- TPR(Ture Positive Rate, 민감도) : 1인 케이스에 대한 1로 예측한 비율
- FPR(False Positive Rate, 1-특이도) : 0인 케이스에 대한 1로 잘못 예측한 비율
- 0.5에 가까울 수록 랜덤 모델에 가까운 좋지 못한 모형
- Perfect classifier : 긍정,부정 모두 다 맞추는 위치 x=0, y=1인 경우!!!! ★★ classification성능이 우수하다고 봄,
5.이익도표
: 분류모형의 성능을 평가하기 위한 척도로, 분류된 관측치에 대해 얼마나 예측이 잘 이루어졌는지를 나타내기 위해
임의로 나눈 각 등급별로 반응검출율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표이다.
- 이익도표의 각 등급은 예측확률에 따라 매겨진 순위이기 때문에, 상위 등급에서는 더 높은 반응률을 보이는 것이 좋은 모형이라고 평가할 수 있다.
- 이익(gain) : 목표 번주에 속하는 개체들이 각 등급을 얼마나 분포하고 있는지 나타내는 값
이익도표(Lift)를 작성함에 있어 평가도구 중 %Captured Reponse를 표현한 계산식 :
해당 집단에서 목표변수의 특정범주 빈도 / 전체 목표변수의 특정범주 빈도 x 100 ★
# 무조건 암기
데이터 마이닝 단게 (특히 2,3)
오분류표 식
F1 계산 식
ROC
2절. 분류분석
1. 분류분석
- 데이터가 어떤 그룹에 속하는지 예측하는데 사용되는 기법이다.
- 클러스터링과 유사하지만, 분류분석은 각 그룹이 정의되어 있다.
- 교사학습(supervised learning)에 해당하는 예측기법이다.
1-1. 예측분석
- 시계열분석처럼 시간에 따른 값 두 개만을 이용해 앞으로의 매출 또는 온도 등을 예측하는 것
- 모델링을 하는 입력 데이터가 어떤 것인지에 따라 특성이 다르다.
- 여러 개의 다양한 설명변수(독립변수)가 아닌, 한 개의 설명변수로 생각하면 된다.
1-2. 분류분석, 예측분석의 공통점과 차이점
- 공통점
- 레코드의 특정 속성의 값을 미리 알아맞히는 점이다.
- 차이점
- 분류 : 레코드(튜플)의 범주형 속성의 값을 알아맞히는 것이다.
- 예측 : 레코드(튜플)의 연속형 속성의 값을 알아맞히는 것이다.
1-3.분류 모델링
- 신용평가모형 (우량, 불량)
- 사기방지모형 (사기, 정상)
- 이탈모형 (이탈, 유지)
- 고객세분화 (VVIP, VIP, GOLD, SILVER, BRONZE)
1-4. 분류 기법
- 회귀분석, 로지스틱 회귀분석 (Logistic Regression)
- 의사결정나무 (Decision Tree), CART(Classification and Regression Tree), C5.0
- 베이지안 분류 (Bayesian Classification), Naive Bayesian
- 인공신경망 (ANN, Artificial Neural Network)
- 지지도벡터기계 (SVN, Support Vector Machine)
- K 최근접 이웃 (KNN, K-Nearest Neighborhood)
- 규칙기반의 분류와 사례기반추론(Case-Based Reasoning)
2. 로지스틱 회귀분석 (Logistic Regression)
- 독립변수(x)와 종속변수(y)사이의 관계를 설명하는 모형
- 독립변수가 연속형, 종속변수가 범주형★★(y=0 또는 1)값을 갖는 경우에 사용하는 방법
- 종속변수가 성공/실패, 사망/생존과 같이 이항변수로 되어 있을 때 종속변수와 독립변수간의 관계식을 이용하여 두 집단 또는 그 이상의 집단을 분류하고자 할 때 사용되는 분석기법
2-1. 로지스틱 회귀모형 특징
- 일반화선형모형의 특별한 경우로 로짓(logit) 모형으로도 불린다.
- 종속변수를 전체 실수 범위로 확장하여 분석하고, sigmoid 함수를 사용해 0~1값으로 변경
- probability(0~1) → odds → logit → sigmoid
- logit : odds값에 log취함. 선형화의 하나, 값의 범위를 전체 실수 범위(-∞ ~ +∞)로 확장.
- 새로운 설명변수가 주어질 때, 반응변수의 각 범주에 속할 확률이 얼마인지 추정한다.
- 설명변수들의 관점에서 각 클래스의 관측치에 대한 유사성을 찾는데 사용 ★
- 설명변수가 한개일 때 회귀계수(β)의 부호에 따라 S자(β>0) 또는 역S자(β<0) 모양을 가짐
- (설명변수가 한개, 해당 회귀계수의 부호가 0보다 작은 경우 표현되는 그래프 : 역S자 ★)
# 승산비, 오즈비 (Odds ratio) ★
- 오즈는 성공할 확률이 실패할 확률의 몇배인지 나타내는 확률
- 승산(odds)비 = 성공률/실패율 = Pi/(1–Pi) (단, Pi는 성공률) ★
- 로지스틱의 회귀계수, 확률에 대해 0 ~ ∞ 로 변환한 값 ★
- Optimizer는 최대우도법 사용, 모형검정은 카이제곱검정을 사용
- 성공 가능성이 높은 경우는 1보다 크고, 실패 가능성이 높은 경우는 1보다 작다
- 오즈(odds)의 관점에서 해석될 수 있다는 장점을 가진다.
- exp(beta)의 의미는 나머지 변수가 주어질 때, 이 한 단위 증가할 때마다 성공(Y=1)의 오즈(odds)가 몇 배 증가하는지 나타내는 값 ★ (괄호뚫고 주관식문제)
2-2.선형회귀분석 vs 로지스틱 회귀분석
구분 | 일반 선형 회귀분석 | 로지스틱 회귀분석 |
종속변수 | 연속형 변수 | 이산형 변수 |
모형 탐색 방법 | 1) 최소자승법 ★ | 2) 최대우도법, 가중최소자승법 |
모형 검정 | F 검정, t 검정 | 3) 카이제곱 검정 ★ |
1) 최소자승법(최소제곱법) ★★
- 데이터와 추정된 함수가 얼마나 잘 맞는지는 잔차들을 제곱(square)해서 구한다. 이를 잔차제곱합(RSS or SSE)이라고 한다.
- 최소제곱법은 해당 식이 제곱형태이니 미분해서 0이 되는 지점을 찾기 위해 잔차제곱합을 최소화하는 계수를 구하는 방법이다.
- 최소제곱 ★ : 자료를 가장 잘 설명하는 회귀계수의 추정치는 보통 제곱오차를 최소로 하는 값을 구하며, 이 회귀계수 추정량을 최소제곱이라고 한다. (단답으로 나왔음)
2) 최대우도법
- 관측 값이 가정된 모집단에서 하나의 표본으로 추출된 가능성이 가장 크게 되도록 하는 회귀계수 추정방법
- 표본의 수가 클 경우에 최대우도법은 안정적이다.
3) 카이제곱 검정 ★
- 범주별로 관측빈도와 기대빈도의 차이를 통해서 확률모형이 데이터를 얼마나 잘 설명하는지검정하는 통계적 방법
- 독립변수와 종속변수가 모두 명목척도일 경우 적합한 통계 기법
- 정규모집단으로부터 N개의 단순임의추출한 표본의 분산은 카이제곱분포를 따른다.
- 일원 카이제곱검정: 적합성 검정 - 모집단이 특정한 분포를 따른다는 가설에 대해 검정
- 한개의 범주집단이 대상 - 이원 카이제곱검정: 독립성 검정 - 표본 추출시 두 이산형 변량에 대한 독립성 여부 조사
- 일원 카이제곱검정: 적합성 검정 - 모집단이 특정한 분포를 따른다는 가설에 대해 검정
- 동질성 검정 - 두집단 이상에 각 범주간의 비율이 서로 동일한지 검정
- x^2분포는 t분포와 정규분포와는 달리 좌우대칭이 아니며 오른쪽으로 긴 꼬리를 갖는다.
- 제곱합의 합으로 구하기 때문에 음수는 가질 수 없고 다만 가장 왼쪽에서는 0의 값을 갖는다.
3. 의사결정나무(decision tree)
- 의사결정규칙을 나무 구조로 나타내 분류하거나 예측을 수행하는 분석방법
- 의사결정나무는 분류(classification)와 회귀(regression) 모두 가능하다.
- 분리기준 : Split criterion, 순수도가 높아지는 방향. 불확실성이 낮아지는 방향으로 분리
- 불순도 측도인 엔트로피 개념은 정보이론의 개념을 기반으로 하여, 임의의 사건이 모여있는 집합의 순수성(purity) 또는 단일성(homogeneity) 관점의 특성을 정량화해서 표현한 것 ★
대표적 적용 사례: 대출신용평가, 환자 증상 유추, 채무 불이행 가능성 예측 ★
장점 | 단점 |
분석과정이 직관적이고 이해하기 쉽고 해석이 용이하다. | 분류 기준값의 경계선 부근의 자료값에 대해서는 오차가 크다. (비연속성) |
선형성, 정규성, 등분산성 등의 수학적 가정이 불필요한 *비모수적 모형 | 로지스틱회귀와 같이 각 예측변수의 효과를 파악하기 어렵다. |
수치형/범주형 변수를 모두 사용할 수 있다. | 새로운 자료에 대한 예측이 불안정할 수 있다. |
분류 정확도가 좋은 편이다. 대용량 데이터에서도 빠르다. 다중공선성 영향을 안 받는다. 비정상 잡음에 대해서도 민감하지 않음 |
설명변수간의 중요도를 판단하기 쉽지 않다. |
- 비모수적 : 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산
3-1. 가지치기(Pruning) ★
- 최종 노드가 너무 많으면 과대적합(Overfitting) 가능성이 커져서 이를 해결하기 위해 사용
- 분류 오류를 크게 할 위험이 높으나 부적절한 규칙을 가지고 있는 가지를 제거하는 작업
- 가지치기 비용함수(Cost function)을 최소로 하는 분기를 찾아내도록 학습
3-2. 정지규칙(Stopping rule) ★
- 의사결정나무에서 더 이상 분기가 되지 않고 현재의 마디가 끝마디가 되도록 하는 규칙
- ‘불순도 감소량’이 아주 작을 때 정지함
3-3. 이산형 목표변수와 연속형 목표변수 ★
- 목표(=종속)변수가 범주형(이산형)인 경우 분류나무, 목표변수가 수치형(연속형)인 경우 회귀나무를 사용
- 이산형 목표변수 : p 값은 작을수록, 지니지수와 엔트로피지수는 클수록노드 내의 이질성이 크고 순수도가 낮다고 할 수 있다.
- 연속형 목표변수 : p값은 작아지고 분산의 감소량은 커질 수록 이질성이 높다.
(1) 이산형 목표변수 (분류나무) | (2) 연속형 목표변수 (회귀나무) | |
(3) CHAID | 카이제곱 통계량 | ANOVA F 통계량 |
(4) CART ★ | 지니계수 | 분산 감소량 |
(5) C5.0 ★ | 엔트로피지수 |
표 암기!!
(1) 목표변수가 ‘이산형’ 목표변수인 경우 분류 기준
- 각 범주에 속하는 빈도에 기초하여 분리
- 오차율 분할 (잘못 분류된 관찰값의 수 / 전체 관찰값의 수)
- 카이제곱 통계량의 유의 확률(p-value) : 가장 작은 값을 갖는 방법 선택,
- 각 셀에 대한 (기대도수-실제도수)^2/기대도수 의 합
- 엔트로피지수 : 불순도 측정 지표, 가장 작은 값을 갖는 방법 선택
(2) 목표변수가 ‘연속형’ 목표변수인 경우 분류 기준 ★
- 평균과 표준편차에 기초하여 분리
- 잔차제곱합(SSR) 개선되는 방향으로 분할 (불필요한 지도학습 / 분산은 높고 편향은 낮다.)
- F통계량 : 모델,모델 성분의 유의성을 검정하는 분산분석(ANOVA) 방식에 대한 검정통계량
- 분산감소량 : 예측오차를 최소화하는 것과 동일한 기준으로, 분산의 감소량을 최대화하는 기준의 최적분리에 의해 자식 마디가 형성.
(3) CHAID (Chi-squared Automatic Interaction Detection)
- 가지치기 하지않고 적당한 크기에 나무모형의 성장을 중지.
- 입력변수가 반드시 범주형
(4) CART (Classification And Regression Tree) ★
- 가장 많이 활용.
- 불순도의 측도로 목적변수가 범주형일 경우 지니지수를 이용, 연속형인 경우 분산을 이용한 이진분리(binary split)를 사용한다.
- 개별 입력변수뿐아니라 입력변수들의 선형결합들중 최적의 분리 찾음
(5) C5.0 ★
- 각 마디에서 다지분리(multiple) 가능.
- 범주형 입력변수에 대해 범주의 수만큼 분리됨
- 불순도의 측도로는 엔트로피지수를 이용
3-4. 지니 계수 ★ ★
- 불순도 측정 지표, 값이 작을수록 순수도가 높음 (분류잘됨)
- 불평등 지수를 나타낼 때 사용하는 계수로 0이 가장 평등, 1로 갈수록 불평등
- 범주가 두개일 때 한쪽 범주에 속한 비율(p)이 0.5일 때 불순도가 최대
- 지니지수 식 : 1- ∑(각 범주별수/전체수)²
- 예) ◈◈▣▣ 불순도 측정결과 지니지수는? 1-((2/4)² + (2/4)²) = ½
3-5. 학습의 불안정성
- 작은 병화에 의해 예측 모형이 크게 변하는 경우, 그 학습 방법은 불안정
- 가장 안정적인 방법 : K-최근접이웃, 선형회귀 모형
- 가장 불안정한 방법 : 의사결정 나무