Data Analytics/MachineLearning10 [ML] 비지도학습(Unsupervised Learning)의 종류 알아보기 / 군집화, 차원축소, 연관규칙 1. 비지도학습(Unsupervised Learning) 클러스터링/군집화(Clustering), 차원축소(Dimensionality Reduction), 연관 규칙(Association Rules)으로 구분 군집화는 공간상에서 서로 가깝고 유사한 데이터를 클러스터로 그룹화 (유사성, 거리로 구분) 차원축소는 고차원의 데이터에 대해서 너무 많은 정보를 잃지 않으면서 데이터를 고차원→ 저차원으로 축소시키는 방법 (데이터 손실없이 얼마나 차원축소를 하느냐가 중요) 연관 규칙은 데이터에서 특성 간의 연관성이 있는 흥미로운 규칙을 찾는 방법 2. 비지도 학습 알고리즘 1. 군집화(Clustering ; 클러스터링) 1-1. K-Means : 데이터를 평균을 활용하여 K개의 군집(Cluster)으로 묶는(Clus.. 2022. 11. 8. [ML] 시계열(Timeseries)이란? / AR , MA, ARIMA 알아보기 👩🏻💻 1. 시계열 시계열 정보 = 규칙적인 패턴 + 불규칙적인 패턴(white noise) 규칙적인 패턴 자기상관성 : 이전의 결과와 이후의 결과 사이에서 발생 이동평균 : 이전에 생긴 불규칙한 사건이 이후의 결과에 편향성을 초래 불규칙적인 패턴(white noise) : 평균이 0이며 일정한 분산을 지닌 정규분포에서 추출된 임의의 수 대표적인 모델 : AR, MA, ARMA, ARIMA 1-1. 정상 프로세스(Stationary Process) : 시간에 관계없이 평균과 분산이 일정한 시계열 데이터 1-2. 비정상 프로세스(Non-Stationary Process) : 시간에 관계없이 평균과 분산이 일정하지 않은 시계열 데이터 💡 어떻게 정상과 비정상 프로세스를 비교하지? X축을 Lag (현재 데이.. 2022. 11. 7. [ML] 지도학습의 회귀 - 규제선형 모델 알아보기(릿지, 라쏘, 엘라스틱넷) 💡규제 선형 모델 회귀 모델은 적절하게 데이터에 적합하면서도 회귀 계수가 기하급수적으로 커지는 것을 제어할 수 있어야한다. 이전까지는 선형 모델의 비용 함수는 실제 값과 예측 값의 차이를 최소화하는 것만 고려하였다. 그러다보니 과적합이 발생하여 회귀 계수가 쉽게 커졌다. 비용함수는 학습 데이터의 잔차 오류값을 최소로 하는 RSS 최소화 방법과 과적합을 방지하기 위해 회귀 계수 값이 커지지 않도록 하는 방법이 서로 균형을 이뤄야 한다. 비용 함수 목표 식 alpha값을 크게하면 비용함수는 회귀 계수 W의 값을 작게 해 과적합을 개선할 수 있고, alpha값을 작게하면 회귀 계수 W의 값이 커져도 어느 정도 상쇄가 가능하므로 학습 데이터 적합을 더 개선할 수 있다. 즉, alpha를 0에서부터 지속적으로 값.. 2022. 11. 7. [ML]LinearRegression을 이용해서 보스턴 주택가격 예측해보기 / knn 모델과 비교해보기 column 설명 더보기 CRIM: 지역별 범죄 발생률 ZN: 25,000평방피트를 초과하는 거주 지역의 비율 NDUS: 비상업 지역 넓이 비율 CHAS: 찰스강에 대한 더미 변수(강의 경계에 위치한 경우는 1, 아니면 0) NOX: 일산화질소 농도 RM: 거주할 수 있는 방 개수 AGE: 1940년 이전에 건축된 소유 주택의 비율 DIS: 5개 주요 고용센터까지의 가중 거리 RAD: 고속도로 접근 용이도 TAX: 10,000달러당 재산세율 PTRATIO: 지역의 교사와 학생 수 비율 B: 지역의 흑인 거주 비율 LSTAT: 하위 계층의 비율 PRICE: 본인 소유의 주택 가격(중앙값) - 종속변수 (위의 건 독립변수) 1. 데이터 살펴보기 import numpy as np import matplotli.. 2022. 11. 7. [ML] 머신러닝 모델의 성능을 향상시키는 방법 GridSearchCV 1. GridSearchCV란? 머신러닝에서 모델의 성능향상을 위해 쓰이는 기법 중 하나 사용자가 모델의 하이퍼 파라미터 값을 리스트로 입력하면 값에 대한 경우의 수마다 예측 성능을 측정 평가하여 비교하면서 최적의 하이퍼 파라미터 값을 찾는 과정을 진행한다. GridSearchCV가 없다면 max_depth 가 3일때 가장 최적의 스코어를 뽑아내는지 1일때 가장 최적인 스코어를 뽑아내는지 일일이 학습을 해야 한다. 하지만 grid 파라미터 안에서 집합을 만들고 적용하면 최적화된 파라미터를 뽑아낼 수 있다. 시간이 오래걸린다는 단점이 있다. 2. GridSearchCV 생성자 estimator : classifier, regressor, pipeline 등 가능 param_grid : 튜닝을 위해 파라미터.. 2022. 11. 7. [ML] 머신러닝 최적화 방법, 경사하강법(Gradient Descent) 알아보기 / 확률적 경사하강법 1. 경사하강법(Gradient Descent) ? 머신러닝, 딥러닝 알고리즘 학습 시 사용되는 최적화 방법(Optimizer) 중 하나이다. 알고리즘 학습의 목표는 예측값과 실제값간의 차이인 손실함수의 크기를 최소화시키는 파라미터를 찾는것이다. 학습데이터 입력을 변경할 수 없으니까, 손실함수값의 변화에 따라 가중치(weight) 혹은 편향(bias)를 업데이트해야한다. ex) 가장 간단한 모델인 선형 회귀에서 cost를 최소화하기 위해 아래와 같이 코드를 작성 할 수 있다. optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.01) train = optimizer.minimize(cost) 1-1. 경사하강법 그래프 step1 : w1,w0를 .. 2022. 11. 7. 이전 1 2 다음