2023-05-23 금융분석데이터 스터디 6주차 !!
CH 12. 확률 과정
금융 분야에서 보게 되는 가장 중요한 데이터 유형 : 날짜나 시간으로 인덱스된 데이터인 금융 시계열 데이터
ex) 주식의 가격(금융 시계열 데이터), 달러-유로 환율
금융 시계열 데이터 다루기 진행 순서
pandas는 다양한 형식(csv, sql, excel)으로 저장된 데이터를 읽어 들이거나 출력할 수 있는 여러 가지 기능과 DataFrame 함수를 제공한다.
이를 시각화해서 살펴보면,
서로 다른 요약 통계를 살펴봄으로썬 전체 데이터에 대한 ‘감’을 얻는다.
pandas는 새로 읽은 금융 시계열 데이터의 전반적인 모습을 쉽게 살필 수 있는 info(), describe() 등의 다양한 메서드를 제공한다.
통계 분석 방법은 절대적인 값보다 시간에 따른 변화에 기반한다.
값의 차이, 퍼센트 변화율, 로그 수익률과 같이 시간에 따른 변화를 계산할 수 있는 방법
통계적 관점에서 절대적인 차잇값은 시계열 데이터의 스케일에 좌우되기 때문에 최적의 선택이 아니다.
따라서 “퍼센트 변화”를 계산하는 것을 선호한다.
퍼센트 수익률의 대체제로 “로그 수익률”을 쓸 수 있다.
이를 표로 나타내면,
시계열 분석에서 중요한 연산이다.
ex) 다운샘플링 : 1분 간격의 시계열로 바꾸거나 일간 데이터를 주간 혹은 월간 데이터로 바꾼다.
데이터를 주간 데이터로 resampling할 경우,
데이터를 월간 데이터로 resampling할 경우,
pandas로 이동 통계를 계산하는 것은 쉽다.
이동 통계는 회사의 금융 리포트나 재정 상태를 분석하는 “기본적 분석”과 대비되는 “기술적 분석”
이동 평균 매매법 : 단기 이동평균선이 장기 이동평균선보다 올라갈 때 매수하고 반대 경우에 매도
SMA1 : 단기 이동평균선 계산 // SMA2 : 장기 이동평균선 계산
위와 같은 경우,포지션이 변화할 때 (이동평균선이 교차할 때) 매매가 발생하는데 매수나 매도의 시작과 종료가번에 발생하므로 총 “6”번 매매
S&P 500이 오르면 VIX는 떨어진다 => S&P 500와 VIX는 강한 음의 상관관계를 가진다.
더 분석을 진행하기 위해
이런 경우 pandas의 scatter_matrix()플롯 함수가 시각화에 도움을 준다.
준비를 마치면
선형회귀선의 기울기는 음수로 두 지수가 음의 상관관계를 가진다는 것을 보인다.
마지막으로
두 가지 측정 방법 고려 가능
전체 데이터에 대한 상관관계
고정된 시간 동안 윈도우를 가지며 변화는 이동 상관관계
두 가지 다 음의 상관관계를 보이고 있기에 “S&P 500와 VIX는 강한 음의 상관관계”
틱데이터를 다룰 때는 시계열 데이털르 리샘플링할 필요가 있다.
ex) 틱데이터를 5분 간격으로 리샘플링하여 중간 가격 plot하면 => 백테스팅하는데 사용할 수 있게 된다.
이번 장에서는 시계열 데이터를 다루었다.
pandas는 이러한 데이터를 다루는 강력한 패키지이다.
pandas를 쓰면 데이터 분석을 효율적으로 할 수 있고 시각화도 쉽다.
다양한 데이터 소스에서 데이터를 읽어 들이거나 여러 가지 기술적 파일 형식으로 내보내는 것도 간단하다.
이러한 입출력에 대해서는 다음 장에서 알아보고자 한다.
CH 12. 확률 과정
CH 11. 수학용 도구
CH 9. 입출력 작업
CH 8. 금융 시계열
OCR 손글씨 인식 프로젝트
DACON 서울시 따릉이 대여량 예측 경진대회 - 점수 49.77795로 마무리
DACON 서울시 따릉이 대여량 예측 경진대회
kaggle Titanic - 77% 정확도로 마무리
kaggle Titanic
오늘 처음 블로그를 만들었어요