Certificate/ADSP8 [ADSP] 3과목 - 5장 5-6. 군집분석, 연관분석 5절. 군집분석 1. 군집분석 각 개체(대상)의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 개체간의 상이성을 규명하는 분석 방법이다. 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것이다. 결과는 구체적인 군집분석 방법에 따라 차이가 나타날 수 있다. 군집의 개수나 구조에 대한 가정 없이 데이터들의 사이의 거리를 기준으로 군집화를 유도한다. 마케팅 조사에서 소비자들의 상품구매활동이나 life style에 따른 소비자군을 분류하여 시장 전략 수집 등에 활용한다. 1-1. 요인분석의 차이점 요인분석은 유사한 변수를 함께 묶어주는 것이 목적이다. 판별분석은 사전에 집단이 나누어져 있는 자료를 통해 새로운 데이터를 기존의 집단에 할당하는.. 2022. 10. 14. [ADSP] 3과목 - 5장 3-4. 앙상블 분석, 인공신경망 분석 3절. 앙상블 분석 1. 앙상블(Ensemble) 모형 : 여러 개의 훈련용 데이터를 만들고, 훈련용 데이터마다 하나의 분류기를 만드는 방법 앙상블 학습의 핵심은 여러 개의 약 분류기 (Weak Classifier)를 결합하여 강 분류기(Strong Classifier)를 만드는 것 전체적인 예측값의 분산을 감소시켜 정확도를 높일 수 있다. ★ 여러 모형의 결과를 결합함으로써 신뢰성 높은 예측값을 얻을 수 있다. 성능을 분산시키기 때문에 과적합 감소효과 있음 (약하게 학습된 여러 모델 결합) 이상값에 대한 대응력이 높아진다. ★ 각 모형의 상호 연관성이 높을수록 정확도가 감소한다. ★ 모형의 투명성이 떨어져 원인 분석에는 적합하지 않다. ★ 훈련을 한 뒤 예측을 하는데 사용하므로 지도학습(Supervis.. 2022. 10. 12. [ADSP] 3과목 - 5장 1-2. 데이터마이닝,성과분석,ROC/ 분류분석, 지니계수 1절. 데이터마이닝 1. 데이터 마이닝 : 대용량 데이터로부터 의미있는 관계, 규칙, 패턴을 찾는 과정 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만 데이터 마이닝은 다양한 수리 알고리즘을 이용해 데이터 베이스의 데이터로부터 의미있는 정보를 찾아내는 방법을 통칭한다. 1-2. 데이터마이닝의 종류 정보를 찾는 방법론에 따른 종류 인공지능(Artificial Intelligence) 의사결정나무(Decision Tree) K-평균군집합(K-means Clustering) 연관분석(Association Rule) 회귀분석(Regression) 로짓분석(Logit Analysis) 최근접이웃(Nearest Neighborhood) 분석대상, 활용목적, 표현방법에 따른 분류 시각화분석(Visualizat.. 2022. 10. 11. [ADSP] 3과목 - 4장. 시계열 분석, 다차원척도법(MDS), 주성분 분석(PCA) 4절. 시계열 분석 1. 시계열 자료 시간의 흐름에 따라 관찰된 값들을 시계열 자료라고 한다. 시계열 데이터 분석을 통해 미래를 예측하고 경향, 주기, 계절성 등을 파악하여 활용 ★ 정상성 시계열 자료 : 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료로 변환한 자료 비정상성 시계열 자료 : 시계열 분석을 실시할때 다루기 어려운 자료 시계열 데이터의 구성요소 : 추세, 순환, 계절변동, 불규칙 변동 등 ★ 분석 절차 ★ 시간 그래프 그리기 추세와 계절성을 제거 잔차를 예측 잔차에 대한 모델 적합하기 예측된 잔차에 추세와 계절성을 더해 미래 예측 1-1. 시계열 구성 요소 ★★★ (1) 추세 요인 : 장기적으로 변해가는 큰 흐름 → 상승, 하락, 이차식, 지수식 형태 (2) 계절 요인 : 요일, 월, 분.. 2022. 10. 10. [ADSP] 3과목 - 4장.통계분석, 기초통계분석, 회귀분석 1절. 통계분석 통계분석 통계 : 특정대상을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현이다. 기술통계(descriptive statistic) 주어진 자료의 파단이나 예측같은 주관이 섞일수 있는 과정을 배재하여 통계집단의 여러 특성을 수화하여 객관적인 데이터로 나타내는 통계 분석 방법론 평균, 표준편차, 중위수, 최빈값, 그래프 등 구하는것 통계적 추론 (추측통계, inference statistics) 수집된 자료를 이용해 대상집단(모집단)에 대한 의사결정을 하는 것으로 sample을 통해 모집단을 추정하는것 모수추정, 가설점정, 예측 ★☆ 표본조사 ★ 대부분의 설문조사는 표본조사로 진행되고 모집단에서 샘플을 추출하여 진행하는 조사 (1) 표본 오차 SE(sampling .. 2022. 10. 9. [ADSP] 3과목 1-3장. 데이터 분석, R, 데이터마트 1장. 데이터 분석 1. 데이터 처리 데이터 분석은 통계에 기반을 두고 있지만, 통계지식과 복잡한 가정이 상대적으로 적은 실용적인 분야이다. 데이터웨어하우스(DW)와 데이터마트(DM)을 통해 분석 데이터를 가져와서 사용한다. 그 외, 기존 운영시스템(Legacy)이나 스테이징 영역(staging area)과 ODS(Operational Data Store)에서 데이터를 가져와서 DW에서 가져온 내용과 결합하여 활용 가급적 클린징 영역인 ODS에서 데이터 전처리 후 DW나 DM과 결합 legacy : 예전부터 사용해오던 기술, 소프트웨어 등을 뜻한다. 이들은 새로운 것으로 대체가 가능하다. ER : 데이터 모델 중 하나. staging : 데이터 원천에서 받아들인 데이터를 확인. 어떠한 데이터가 저장됬는지.. 2022. 10. 9. 이전 1 2 다음