본문 바로가기

전체 글127

[ADSP] 3과목 - 4장. 시계열 분석, 다차원척도법(MDS), 주성분 분석(PCA) 4절. 시계열 분석 1. 시계열 자료 시간의 흐름에 따라 관찰된 값들을 시계열 자료라고 한다. 시계열 데이터 분석을 통해 미래를 예측하고 경향, 주기, 계절성 등을 파악하여 활용 ★ 정상성 시계열 자료 : 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료로 변환한 자료 비정상성 시계열 자료 : 시계열 분석을 실시할때 다루기 어려운 자료 시계열 데이터의 구성요소 : 추세, 순환, 계절변동, 불규칙 변동 등 ★ 분석 절차 ★ 시간 그래프 그리기 추세와 계절성을 제거 잔차를 예측 잔차에 대한 모델 적합하기 예측된 잔차에 추세와 계절성을 더해 미래 예측 1-1. 시계열 구성 요소 ★★★ (1) 추세 요인 : 장기적으로 변해가는 큰 흐름 → 상승, 하락, 이차식, 지수식 형태 (2) 계절 요인 : 요일, 월, 분.. 2022. 10. 10.
[ADSP] 3과목 - 4장.통계분석, 기초통계분석, 회귀분석 1절. 통계분석 통계분석 통계 : 특정대상을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현이다. 기술통계(descriptive statistic) 주어진 자료의 파단이나 예측같은 주관이 섞일수 있는 과정을 배재하여 통계집단의 여러 특성을 수화하여 객관적인 데이터로 나타내는 통계 분석 방법론 평균, 표준편차, 중위수, 최빈값, 그래프 등 구하는것 통계적 추론 (추측통계, inference statistics) 수집된 자료를 이용해 대상집단(모집단)에 대한 의사결정을 하는 것으로 sample을 통해 모집단을 추정하는것 모수추정, 가설점정, 예측 ★☆ 표본조사 ★ 대부분의 설문조사는 표본조사로 진행되고 모집단에서 샘플을 추출하여 진행하는 조사 (1) 표본 오차 SE(sampling .. 2022. 10. 9.
[ADSP] 3과목 1-3장. 데이터 분석, R, 데이터마트 1장. 데이터 분석 1. 데이터 처리 데이터 분석은 통계에 기반을 두고 있지만, 통계지식과 복잡한 가정이 상대적으로 적은 실용적인 분야이다. 데이터웨어하우스(DW)와 데이터마트(DM)을 통해 분석 데이터를 가져와서 사용한다. 그 외, 기존 운영시스템(Legacy)이나 스테이징 영역(staging area)과 ODS(Operational Data Store)에서 데이터를 가져와서 DW에서 가져온 내용과 결합하여 활용 가급적 클린징 영역인 ODS에서 데이터 전처리 후 DW나 DM과 결합 legacy : 예전부터 사용해오던 기술, 소프트웨어 등을 뜻한다. 이들은 새로운 것으로 대체가 가능하다. ER : 데이터 모델 중 하나. staging : 데이터 원천에서 받아들인 데이터를 확인. 어떠한 데이터가 저장됬는지.. 2022. 10. 9.
[SQLD]1과목 - 1장 2절. 엔터티, 속성, 관계 엔터티(Entity) : 업무에서 관리해야하는 데이터의 집합, 명사형, 인스턴스의 집합 (보이지않는 것 포함) 특징 ★ 업무에서 필요로 함 유일한 식별자를 가짐 2개 이상의 인스턴스를 포함함 업무 프로세스에 이용 속성 포함 최소 1개 이상 관계 존재 (통계성, 코드성, 내부필요 엔터티 제외) 종류 ★ 유무형에 따른 분류 유형 엔터티 : 물리적 형태가 있고 지속적으로 활용되는 엔터티 ex) 사원, 물품, 강사 개념 엔터티 : 물리적 형태가 없는 엔터티 ex) 조직, 보험상품 사건 엔터티 : 업무 수행함에 따라 발생됨 ex) 주문, 청구, 미납 발생시점에 따른 분류 기본 엔터티(Key Entity) : 업무에 원래 존재하는 정보. 자신은 타 엔터티의 부모역할. 독립적으로 생성. 자신의 고유한 주식별자 가짐... 2022. 10. 9.
[금융] 퀀트투자 / 이동평균선(MA) / 지수이동평균선(EMA) 💡 퀀트투자란? 증권사나 기업에서 제공하는 모든 객관적인 수치 지표를 가지고 수학적, 통계적 기법을 활용해 투자 종목을 발굴하는 투자 방법 주식투자 시 종목을 분석하는데 분석은 크게 두가지로 나뉜다. 기본적 분석 주식(종목)의 내재가치(Fundamental)을 분석 기술적 분석 이동평균선, MACD, RSI 등 여러 지표를 바탕으로 하는 분석 1. 이동평균선(Moving Average) : 주식시장이나 파생상품시장에서 기술적 분석을 할 때 쓰이는 기본 도구 중 하나. 거래액, 매매 대금, 생산량 등의 예측에 다양한 예측에 사용 목적 : 과거의 평균적 수치에서 현상을 파악(주로 추세)하여 현재의 매매와 미래의 예측에 접목할 수 돕는 것 주식시장은 주말을 제외한 5일간 매매가 이루어 진다. 5일 이평선은 1.. 2022. 10. 6.
[SQLD]1과목 - 1장 1절. 데이터 모델링의 이해 1절. 데이터 모델의 이해 1. 모델링 : 현실 세계를 단순화하여 표현한 것 특징 (단 추 명) 추상화 : 일정한 형식에 맞춰 표현함 단순화 : 제한된 표기법이나 언어로 표현함 명확성 : 이해가 쉽게 표현함 관점 데이터 관점 : 업무와 데이터 및 데이터 사이의 관계 프로세스 관점 : 진행되고 있거나 진행되어야 하는 업무 상관 관점 : 데이터에 대한 업무 처리 방식의 영향 2. 데이터 모델링 : 정보 시스템 구축을 위한 데이터 관점의 업무 분석 기법 현실세계의 데이터에 대해 약속된 표기법에 의해 표현하는 과정 목적 1) 정보에 대한 표기법을 통일하여 업무 내용 분석 정확도 증대 2) 데이터 모델을 기초로 DB 생성 기능 1) 원하는 모습으로 가시화하도록 도와준다. 2) 시스템의 구조와 행동을 명세화할 수 .. 2022. 10. 6.
[ADSP] 2과목 - 데이터 분석 기획, 빅데이터, 분석 마스터 플랜 # 분석 주제 유형 ★★ (최 솔 통 발) 분석의 대상(What) → 분석의 방법(How)↓ 대상 Known 대상 Un-Known 방법 Known 최적화(Optimization) ★ 통찰(Insight) ★ 방법 Un-Known 솔루션(Solution) ★ 발견(Discovery) ★ # 분석 목표 시점별 단기방안 중장기방안 Speed, Test Accuracy, Deploy Quick-win Long Term View Problem solving Problem Definition 과제 중심 장기적인 마스터 플랜 # 분석 기획 시 고려사항 ★ (1) 가용한 데이터 관련 데이터 파악, 데이터의 확보가 우선적이며, 데이터 유형분석이 선행적으로 이뤄져야 한다. (데이터의 유형에 따라 솔루션 및 분석 방법이 다.. 2022. 10. 6.
[ADSP] 1과목. 데이터, 데이터베이스, 빅데이터 1장.데이터 # 데이터 - 데이터는 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실(fact) - 추론, 예측, 전망, 추정을 위한 근거(bias)로 기능하는 특성을 갖음 - 다른 객체와의 상호관계 속에서 가치를 찾음 # 데이터의 유형 (두개 헷갈리지 말기!) (1) 정성적(qualitative) 데이터 - 형태와 형식이 정해져있지않아 저장/검색/분석하는데 많은 비용과 기술적 투자가 수반된다. - 언어, 문자로 기술 ex) 설문조사 주관식 응답, sns에 올린글, 기상특보 등 비정형 데이터 (2) 정량적(quantitative) 데이터 - 데이터의 양이 크게 증가하더라도 저장, 검색, 분석하여 활용하기 용이하다. - 수치, 도형, 기호 등으로 표시 ex) 지역별 온도, 풍속, 강우량 # 지식경영.. 2022. 10. 5.
[Python] 클래스(class) / 인스턴스, 객체, self, super 이해하기 클래스(class) ✔️클래스(class) : 설계도 ex) 과자틀 ✔️인스턴스(instance), 객체(Object) : 과자틀에 의해서 만들어진 과자 💡 클래스로 만든 객체를 인스턴스라고도 한다. 그렇다면 객체와 인스턴스의 차이는 무엇일까? 이렇게 생각해 보자. a = Cookie() 이렇게 만든 a는 객체이다. 그리고 a 객체는 Cookie의 인스턴스이다. 즉 인스턴스라는 말은 특정 객체(a)가 어떤 클래스(Cookie)의 객체인지를 관계 위주로 설명할 때 사용한다. ✔️타입(type) : 문자열(sting)이 ‘str’이라는 타입을 갖는 클래스인것처럼, 우리가 선언하는 클래스의 이름이 타입이 된다. ✔️속성(attribute) : 클래스의 내부 변수 ✔️메소드(method) : 클래스 내에서 선언.. 2022. 10. 5.