본문 바로가기

MachineLearning7

[ML] 비지도학습(Unsupervised Learning)의 종류 알아보기 / 군집화, 차원축소, 연관규칙 1. 비지도학습(Unsupervised Learning) 클러스터링/군집화(Clustering), 차원축소(Dimensionality Reduction), 연관 규칙(Association Rules)으로 구분 군집화는 공간상에서 서로 가깝고 유사한 데이터를 클러스터로 그룹화 (유사성, 거리로 구분) 차원축소는 고차원의 데이터에 대해서 너무 많은 정보를 잃지 않으면서 데이터를 고차원→ 저차원으로 축소시키는 방법 (데이터 손실없이 얼마나 차원축소를 하느냐가 중요) 연관 규칙은 데이터에서 특성 간의 연관성이 있는 흥미로운 규칙을 찾는 방법 2. 비지도 학습 알고리즘 1. 군집화(Clustering ; 클러스터링) 1-1. K-Means : 데이터를 평균을 활용하여 K개의 군집(Cluster)으로 묶는(Clus.. 2022. 11. 8.
[ML] 지도학습의 회귀 - 규제선형 모델 알아보기(릿지, 라쏘, 엘라스틱넷) 💡규제 선형 모델 회귀 모델은 적절하게 데이터에 적합하면서도 회귀 계수가 기하급수적으로 커지는 것을 제어할 수 있어야한다. 이전까지는 선형 모델의 비용 함수는 실제 값과 예측 값의 차이를 최소화하는 것만 고려하였다. 그러다보니 과적합이 발생하여 회귀 계수가 쉽게 커졌다. 비용함수는 학습 데이터의 잔차 오류값을 최소로 하는 RSS 최소화 방법과 과적합을 방지하기 위해 회귀 계수 값이 커지지 않도록 하는 방법이 서로 균형을 이뤄야 한다. 비용 함수 목표 식 alpha값을 크게하면 비용함수는 회귀 계수 W의 값을 작게 해 과적합을 개선할 수 있고, alpha값을 작게하면 회귀 계수 W의 값이 커져도 어느 정도 상쇄가 가능하므로 학습 데이터 적합을 더 개선할 수 있다. 즉, alpha를 0에서부터 지속적으로 값.. 2022. 11. 7.
[ML]LinearRegression을 이용해서 보스턴 주택가격 예측해보기 / knn 모델과 비교해보기 column 설명 더보기 CRIM: 지역별 범죄 발생률 ZN: 25,000평방피트를 초과하는 거주 지역의 비율 NDUS: 비상업 지역 넓이 비율 CHAS: 찰스강에 대한 더미 변수(강의 경계에 위치한 경우는 1, 아니면 0) NOX: 일산화질소 농도 RM: 거주할 수 있는 방 개수 AGE: 1940년 이전에 건축된 소유 주택의 비율 DIS: 5개 주요 고용센터까지의 가중 거리 RAD: 고속도로 접근 용이도 TAX: 10,000달러당 재산세율 PTRATIO: 지역의 교사와 학생 수 비율 B: 지역의 흑인 거주 비율 LSTAT: 하위 계층의 비율 PRICE: 본인 소유의 주택 가격(중앙값) - 종속변수 (위의 건 독립변수) 1. 데이터 살펴보기 import numpy as np import matplotli.. 2022. 11. 7.
[ML] 머신러닝 모델의 성능을 향상시키는 방법 GridSearchCV 1. GridSearchCV란? 머신러닝에서 모델의 성능향상을 위해 쓰이는 기법 중 하나 사용자가 모델의 하이퍼 파라미터 값을 리스트로 입력하면 값에 대한 경우의 수마다 예측 성능을 측정 평가하여 비교하면서 최적의 하이퍼 파라미터 값을 찾는 과정을 진행한다. GridSearchCV가 없다면 max_depth 가 3일때 가장 최적의 스코어를 뽑아내는지 1일때 가장 최적인 스코어를 뽑아내는지 일일이 학습을 해야 한다. 하지만 grid 파라미터 안에서 집합을 만들고 적용하면 최적화된 파라미터를 뽑아낼 수 있다. 시간이 오래걸린다는 단점이 있다. 2. GridSearchCV 생성자 estimator : classifier, regressor, pipeline 등 가능 param_grid : 튜닝을 위해 파라미터.. 2022. 11. 7.
[ML] 머신러닝 최적화 방법, 경사하강법(Gradient Descent) 알아보기 / 확률적 경사하강법 1. 경사하강법(Gradient Descent) ? 머신러닝, 딥러닝 알고리즘 학습 시 사용되는 최적화 방법(Optimizer) 중 하나이다. 알고리즘 학습의 목표는 예측값과 실제값간의 차이인 손실함수의 크기를 최소화시키는 파라미터를 찾는것이다. 학습데이터 입력을 변경할 수 없으니까, 손실함수값의 변화에 따라 가중치(weight) 혹은 편향(bias)를 업데이트해야한다. ex) 가장 간단한 모델인 선형 회귀에서 cost를 최소화하기 위해 아래와 같이 코드를 작성 할 수 있다. optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.01) train = optimizer.minimize(cost) 1-1. 경사하강법 그래프 step1 : w1,w0를 .. 2022. 11. 7.
[ML] 머신러닝 지도학습의 회귀(regression)의 종류와 실습해보기 💡 회귀는 여러개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 것이 기본적인 개념이며, 독립변수에 영향을 미치는 회귀 계수(Regression coefficients)의 최적값을 찾아 종속변수를 예측해내는 것이다. ex) 아파트의 방 개수, 방 크기, 주변 학군, 교통 등 여러개의 독립변수에 따라 아파트 가격이라는 종속변수가 어떤 관계를 나타내는지 모델링하고 예측하는 것독립변수 개수 회귀 계수의 결합 1개 : 단일 회귀 선형 : 선형 회귀 여러 개 : 다중(다항) 회귀 비선형 : 비선형 회귀 분류는 예측값이 카테고리와 같은 이산형 클래스값이고, 회귀는 연속형 숫자값이다. 회귀는 연속적인 숫자를 예측하는 것이다. 사람의 나이, 농작물의 수확량, 주식 가격 등 출력값이 연속성을 갖는것 회귀에서 .. 2022. 11. 7.