본문 바로가기

Data Analytics18

[ML] 비지도학습(Unsupervised Learning)의 종류 알아보기 / 군집화, 차원축소, 연관규칙 1. 비지도학습(Unsupervised Learning) 클러스터링/군집화(Clustering), 차원축소(Dimensionality Reduction), 연관 규칙(Association Rules)으로 구분 군집화는 공간상에서 서로 가깝고 유사한 데이터를 클러스터로 그룹화 (유사성, 거리로 구분) 차원축소는 고차원의 데이터에 대해서 너무 많은 정보를 잃지 않으면서 데이터를 고차원→ 저차원으로 축소시키는 방법 (데이터 손실없이 얼마나 차원축소를 하느냐가 중요) 연관 규칙은 데이터에서 특성 간의 연관성이 있는 흥미로운 규칙을 찾는 방법 2. 비지도 학습 알고리즘 1. 군집화(Clustering ; 클러스터링) 1-1. K-Means : 데이터를 평균을 활용하여 K개의 군집(Cluster)으로 묶는(Clus.. 2022. 11. 8.
[AARRR] 그로스 마케팅의 기본, AARRR이란? / Acquisition, Activation AARRR AARRR은 기업이 사업의 성장을 평가하기 위해 추적해야 할 5가지 사용자 행동 메트릭의 이니셜을 딴 약자입니다. AARRR은 스타트업이 집중해야 할 가장 중요한 5가지 지표로 널리 받아들여지고 있습니다. 왜 AARRR이 중요한가요? 스타트업은 아이디어를 바탕으로 서비스(상품)를 만드는 데 능숙하지만, 서비스를 효과적으로 사람들에게 알리고 사용자를 꾸준히 확보하기 위한 개선방법에 대해서는 고민이 많습니다. AARRR은 시장 진입 단계에 맞는 특정 지표를 기준으로 우리 서비스의 상태를 가늠할 수 있는 효율적인 기준이 됩니다. 수많은 데이터 중 현 시점에서 가장 핵심적인 지표에 집중할 수 있게 함으로써, 분석할 리소스(인력이나 시간)가 충분하지 않은 스타트업에게 매력적인 프레임워크라고 할 수 있습.. 2022. 11. 8.
[ML] 시계열(Timeseries)이란? / AR , MA, ARIMA 알아보기 👩🏻‍💻 1. 시계열 시계열 정보 = 규칙적인 패턴 + 불규칙적인 패턴(white noise) 규칙적인 패턴 자기상관성 : 이전의 결과와 이후의 결과 사이에서 발생 이동평균 : 이전에 생긴 불규칙한 사건이 이후의 결과에 편향성을 초래 불규칙적인 패턴(white noise) : 평균이 0이며 일정한 분산을 지닌 정규분포에서 추출된 임의의 수 대표적인 모델 : AR, MA, ARMA, ARIMA 1-1. 정상 프로세스(Stationary Process) : 시간에 관계없이 평균과 분산이 일정한 시계열 데이터 1-2. 비정상 프로세스(Non-Stationary Process) : 시간에 관계없이 평균과 분산이 일정하지 않은 시계열 데이터 💡 어떻게 정상과 비정상 프로세스를 비교하지? X축을 Lag (현재 데이.. 2022. 11. 7.
[ML] 지도학습의 회귀 - 규제선형 모델 알아보기(릿지, 라쏘, 엘라스틱넷) 💡규제 선형 모델 회귀 모델은 적절하게 데이터에 적합하면서도 회귀 계수가 기하급수적으로 커지는 것을 제어할 수 있어야한다. 이전까지는 선형 모델의 비용 함수는 실제 값과 예측 값의 차이를 최소화하는 것만 고려하였다. 그러다보니 과적합이 발생하여 회귀 계수가 쉽게 커졌다. 비용함수는 학습 데이터의 잔차 오류값을 최소로 하는 RSS 최소화 방법과 과적합을 방지하기 위해 회귀 계수 값이 커지지 않도록 하는 방법이 서로 균형을 이뤄야 한다. 비용 함수 목표 식 alpha값을 크게하면 비용함수는 회귀 계수 W의 값을 작게 해 과적합을 개선할 수 있고, alpha값을 작게하면 회귀 계수 W의 값이 커져도 어느 정도 상쇄가 가능하므로 학습 데이터 적합을 더 개선할 수 있다. 즉, alpha를 0에서부터 지속적으로 값.. 2022. 11. 7.
[ML]LinearRegression을 이용해서 보스턴 주택가격 예측해보기 / knn 모델과 비교해보기 column 설명 더보기 CRIM: 지역별 범죄 발생률 ZN: 25,000평방피트를 초과하는 거주 지역의 비율 NDUS: 비상업 지역 넓이 비율 CHAS: 찰스강에 대한 더미 변수(강의 경계에 위치한 경우는 1, 아니면 0) NOX: 일산화질소 농도 RM: 거주할 수 있는 방 개수 AGE: 1940년 이전에 건축된 소유 주택의 비율 DIS: 5개 주요 고용센터까지의 가중 거리 RAD: 고속도로 접근 용이도 TAX: 10,000달러당 재산세율 PTRATIO: 지역의 교사와 학생 수 비율 B: 지역의 흑인 거주 비율 LSTAT: 하위 계층의 비율 PRICE: 본인 소유의 주택 가격(중앙값) - 종속변수 (위의 건 독립변수) 1. 데이터 살펴보기 import numpy as np import matplotli.. 2022. 11. 7.
[ML] 머신러닝 모델의 성능을 향상시키는 방법 GridSearchCV 1. GridSearchCV란? 머신러닝에서 모델의 성능향상을 위해 쓰이는 기법 중 하나 사용자가 모델의 하이퍼 파라미터 값을 리스트로 입력하면 값에 대한 경우의 수마다 예측 성능을 측정 평가하여 비교하면서 최적의 하이퍼 파라미터 값을 찾는 과정을 진행한다. GridSearchCV가 없다면 max_depth 가 3일때 가장 최적의 스코어를 뽑아내는지 1일때 가장 최적인 스코어를 뽑아내는지 일일이 학습을 해야 한다. 하지만 grid 파라미터 안에서 집합을 만들고 적용하면 최적화된 파라미터를 뽑아낼 수 있다. 시간이 오래걸린다는 단점이 있다. 2. GridSearchCV 생성자 estimator : classifier, regressor, pipeline 등 가능 param_grid : 튜닝을 위해 파라미터.. 2022. 11. 7.