본문 바로가기

분류 전체보기127

[Python] Numpy란? 배열생성,차원변경/ 행렬곱(내적dot)/ 원소접근 1. Numpy 란? 배열, 행렬형식의 대량의 데이터를 다루기 위한 숫자 전문 라이브러리이다. array : 동일데이터로 이루어진 데이터셋 ndarray : numpy의 n차원 배열객체. 하나의 데이터 타입만 가질 수 있다. 차원 1차원 축(행) : axis0 → Vector 2차원 축(열): axis1 → Matrix 3차원 축(채널): axis2 → Tensor(3차원이상) ✔️n차원 배열 예시 # 2차원배열은 [[두번 감싸준다고 생각하면됨! a = np.array([[1,2],[3,4]]) [out] array([[1, 2], [3, 4]]) # a의 형태와 type확인 print(a.ndim) # 차원 확인 2 print(a.shape,a.dtype) # (2, 2) int32 b = np.arr.. 2022. 10. 2.
[ML] 추천 시스템 개발을 위한 surprise 라이브러리 - 컨텐츠 기반 필터링 Surprise 추천 시스템 개발을 위한 라이브러리 다양한 모델과 데이터 제공 1. 간단한 Surprise 실습 from surprise import SVD # SVD 특이값분해 : 행렬을 대각화 from surprise import Dataset from surprise.model_selection import cross_validate # 다중평가지표 # 내장 데이터인 무비렌즈 데이터 로드 data = Dataset.load_builtin('ml-100k', prompt=False) data.raw_ratings[:10] # user_id item_id rating timestamp [out] [('196', '242', 3.0, '881250949'), ('186', '302', 3.0, '8917.. 2022. 10. 2.
[ML] DecisionTree모델 이용해서 붓꽃 품종 예측 / 사용자 행동 인식 Dataset Decision Tree(결정트리) ✔️ 장점 쉽다. 직관적이다. feature의 스케일링이나 정규화 등의 사전 가공 영향도가 크지 않음 ✔️ 단점 과적합으로 알고리즘 성능이 떨어진다. 이를 극복하기 위해 트리의 크기를 사전에 제한하는 튜닝 필요 결정트리 Parameter min_samples_split : 노드를 분할하기 위한 샘플 데이터 수로 과적합을 제어하는 사용됨 miin_samples_leaf : 말단 노드(lead)가 되기 위한 최소한의 샘플 데이터 수 max_feaures : 최적의 분할을 위해 고려할 최대 피처 개수 max_depth : 트리의 최대 깊이를 규정 max_leaf_nodes : 말단 노드(leaf)의 최대 개수 더이상 자식 노드가 없는 노드는 리프(leaf) 노드이다. 리프 .. 2022. 10. 2.
[ML] 머신러닝이란? 지도학습의 분류(Classification) 1. 머신러닝이란? 명시적인 프로그래밍없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구 분야 머신러닝은 데이터를 통해 다양한 패턴을 감지하고, 스스로 학습할 수 있는 모델 개발에 초점 지도학습(Supervised Learning) 입력과 정답데이터로 모델을 학습시키고 정확한 출력을 예측하도록 하는것이 목표이다. 사람들의 노력과 자원이 필요하지만 높은 성능을 기대할 수 있다. 지도학습 알고리즘은 크게 분류와 회귀로 구분된다. 2. 분류 💡 분류는 학습 데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 생성된 모델에 새로운 데이터 값이 주어졌을때 미지의 레이블값을 예측하는 것이다. 분류는 클래스가 2인 이진분류(binary classification)와, 3개 이상인 다.. 2022. 10. 2.
이동평균선(Moving Average) 이해하기 / 단순,지수,가중 이동평균선(Moving Average) 주식시장 파생상품시장에서 기술적 분석을 할 때 쓰이는 기본 도구 거래액, 매매 대금, 생산량 등의 예측에 다양한 예측에 사용 주식시장은 주말을 제외한 5일간 매매가 이루어 지고 5일 이평선은 1주일간의 주가의 흐름 파악, 20일 이평선은 1달간의 주가의 흐름 파악, 240일 이평선은 약 1년간의 주가의 흐름을 파악하는 지표이다. 5일, 20일 이평선은 주로 '단기스윙'매매에 이용되며, 60일,120일 이평선은 '중장기 매매'에 이용된다. 이동평균선 매매기법 골든크로스(Golden Cross) : 매수타이밍. 단기이동평균선이 장기이동평균선을 뚫고 상승하는 것 ex)20일 이평선이 60일 이평선을 뚫고 상승하는 겨우 단기평균은 결국 장기평균의 상승을 리드한다. 데드크로.. 2022. 10. 1.
[데이터 분석가] 핀테크 데이터 사이언티스트 과정 수료 후기 👩🏻‍💻 '데이터 분석가'가 되기로 했다! 어느 시점부터 취준을 시작했다고 하긴 애매하지만 취준을 시작하면서 정확하게 직무를 정하기부터가 난관이었다. 나.. 뭐가 되고싶더라..? 이것저것 공부하고, 자격증도 따고, 도전해보다보니 벌써 졸업한지 1년이 넘어가는 백수.. 내가 잘하던게 뭐지, 좋아하던게 뭐지 돌아보던 시점에 마지막 학기에 들었던 '인터넷 마케팅' 강의에서 교수님께서 GA를 따라고 말씀하셨던게 기억나고,, GA를 비롯해 데이터를 분석할 수 있는 역량이 큰 강점이 될 것이라는 생각으로 '데이터 분석' 공부하기 시작했다. 독학으로 python공부하는것도 하루이틀,, 이대론 안되겠다 싶어서 학원을 알아보기 시작하고, 국비학원이란걸 알게되었다! 6개월간 국가에서 무료로 학원을 다니고 취업을 지원해주는.. 2022. 9. 29.