본문 바로가기

데이터분석가44

[SQL 문법] RANK/DENSE_RANK, LAG, 분할 함수 / 테이블 분할 1. 순위함수 SELECT 컬럼이름 , RANK() OVER (PARTITION BY 그룹 이름 ORDER BY 컬럼이름) FROM 테이블이름 1-1. RANK 중복 순위 포함해서 출력 ex) 1,1,3,4,5... 1-2. DENSE_RANK 중복 순위 무시하고 출력 (중간 순위를 비우지 않음) ex) 1,1,2,2,3,4... 1-3. ROW_NUMBER 값에 무관하게 고유한 순위 부여 (ORDER BY 필요) ex) 1,2,3,4,5,6... ✅RANK & DENSE RANK 예제 # RANK SELECT *, RANK() OVER(ORDER BY MKT_CAPITALIZATION_USD) AS 순위 -- MKT기준 오름차순으로 정렬후 순위를 매기는 컬럼 추가 FROM STOCK_INFO; [OUT.. 2022. 11. 7.
[ML] 시계열(Timeseries)이란? / AR , MA, ARIMA 알아보기 👩🏻‍💻 1. 시계열 시계열 정보 = 규칙적인 패턴 + 불규칙적인 패턴(white noise) 규칙적인 패턴 자기상관성 : 이전의 결과와 이후의 결과 사이에서 발생 이동평균 : 이전에 생긴 불규칙한 사건이 이후의 결과에 편향성을 초래 불규칙적인 패턴(white noise) : 평균이 0이며 일정한 분산을 지닌 정규분포에서 추출된 임의의 수 대표적인 모델 : AR, MA, ARMA, ARIMA 1-1. 정상 프로세스(Stationary Process) : 시간에 관계없이 평균과 분산이 일정한 시계열 데이터 1-2. 비정상 프로세스(Non-Stationary Process) : 시간에 관계없이 평균과 분산이 일정하지 않은 시계열 데이터 💡 어떻게 정상과 비정상 프로세스를 비교하지? X축을 Lag (현재 데이.. 2022. 11. 7.
[SQL문법] GROUP BY / HAVING - MySQL 1. GROUP BY (특정 컬럼을 기준으로 그룹화) 💡 SELECT 칼럼1, 칼럼2, 집계함수 FROM 테이블이름 GROUP BY 칼럼1, 칼럼2 ✅GROUP BY 후, SUM/MAX/AVG 구하기 SELECT REGION, INDCODE, SUM(MKT_CAPITALIZATION_USD), -- 그룹기준으로 MKT를 SUM 해줘 MAX(MKT_CAPITALIZATION_USD), AVG(MKT_CAPITALIZATION_USD) FROM stock_info GROUP BY REGION, INDCODE; -- REGION, INDCODE 기준으로 묶어줘 ✅부서별로 그룹하여 부서번호, 인원수, 급여의 평균, 급여의 합을 조회 SELECT deptno, COUNT(*), ROUND(AVG(sal)) '급여.. 2022. 11. 7.
[ML] 지도학습의 회귀 - 규제선형 모델 알아보기(릿지, 라쏘, 엘라스틱넷) 💡규제 선형 모델 회귀 모델은 적절하게 데이터에 적합하면서도 회귀 계수가 기하급수적으로 커지는 것을 제어할 수 있어야한다. 이전까지는 선형 모델의 비용 함수는 실제 값과 예측 값의 차이를 최소화하는 것만 고려하였다. 그러다보니 과적합이 발생하여 회귀 계수가 쉽게 커졌다. 비용함수는 학습 데이터의 잔차 오류값을 최소로 하는 RSS 최소화 방법과 과적합을 방지하기 위해 회귀 계수 값이 커지지 않도록 하는 방법이 서로 균형을 이뤄야 한다. 비용 함수 목표 식 alpha값을 크게하면 비용함수는 회귀 계수 W의 값을 작게 해 과적합을 개선할 수 있고, alpha값을 작게하면 회귀 계수 W의 값이 커져도 어느 정도 상쇄가 가능하므로 학습 데이터 적합을 더 개선할 수 있다. 즉, alpha를 0에서부터 지속적으로 값.. 2022. 11. 7.
[ML]LinearRegression을 이용해서 보스턴 주택가격 예측해보기 / knn 모델과 비교해보기 column 설명 더보기 CRIM: 지역별 범죄 발생률 ZN: 25,000평방피트를 초과하는 거주 지역의 비율 NDUS: 비상업 지역 넓이 비율 CHAS: 찰스강에 대한 더미 변수(강의 경계에 위치한 경우는 1, 아니면 0) NOX: 일산화질소 농도 RM: 거주할 수 있는 방 개수 AGE: 1940년 이전에 건축된 소유 주택의 비율 DIS: 5개 주요 고용센터까지의 가중 거리 RAD: 고속도로 접근 용이도 TAX: 10,000달러당 재산세율 PTRATIO: 지역의 교사와 학생 수 비율 B: 지역의 흑인 거주 비율 LSTAT: 하위 계층의 비율 PRICE: 본인 소유의 주택 가격(중앙값) - 종속변수 (위의 건 독립변수) 1. 데이터 살펴보기 import numpy as np import matplotli.. 2022. 11. 7.
[ML] 머신러닝 모델의 성능을 향상시키는 방법 GridSearchCV 1. GridSearchCV란? 머신러닝에서 모델의 성능향상을 위해 쓰이는 기법 중 하나 사용자가 모델의 하이퍼 파라미터 값을 리스트로 입력하면 값에 대한 경우의 수마다 예측 성능을 측정 평가하여 비교하면서 최적의 하이퍼 파라미터 값을 찾는 과정을 진행한다. GridSearchCV가 없다면 max_depth 가 3일때 가장 최적의 스코어를 뽑아내는지 1일때 가장 최적인 스코어를 뽑아내는지 일일이 학습을 해야 한다. 하지만 grid 파라미터 안에서 집합을 만들고 적용하면 최적화된 파라미터를 뽑아낼 수 있다. 시간이 오래걸린다는 단점이 있다. 2. GridSearchCV 생성자 estimator : classifier, regressor, pipeline 등 가능 param_grid : 튜닝을 위해 파라미터.. 2022. 11. 7.