데이터 사이언스와 빅데이터 전반에 대한 주요 개념과 실제 금융권에서의 활용 사례 전반을 다룹니다. 데이터 마이닝, 데이터 사이언스, 지도학습 및 비지도학습 등에 대한 기본 개념과 함께 최근 금융권에서 주목하는 대체 데이터(Alternative data)의 개념, 활용 현황, 위험 요인, 앞으로의 미래 등을 포함합니다. 또한, 최근 월가에서 어떤 데이터를 원하고 있는지, 데이터 수요자에게 데이터를 판매함에 있어 어떠한 요인이 중요한지 등 실무적인 내용도 직관적이고 어렵지 않은 수준으로 학습합니다.
(학습 전략)
금융권내 빅데이터, 데이터 사이언스와 관련한 최근 추세를 손쉽게 학습할 수 있습니다. FDP 본격 커리큘럼에 들어가기 전에 부담 없이 읽으면서 학습하는 토픽입니다.
본격적인 빅데이터, 기계학습, 인공지능의 배경 지식이 되는 이론 전반을 다룹니다. 첫째로는 통계 이론입니다. 회귀분석, 베이즈 이론, K-nearest neighbors 등에 대한 주요 개념과 통계적 학습, 모델 정확도 평가 등 통계 분석상 주요 이슈를 포함합니다. 둘째로는 인공지능 이론입니다. 인공지능 네트워크 구성 요소에 대한 주요 개념과 네트워크 학습 과정 및 방법, 학습 시 유의사항 등을 배웁니다. 비전공자들에게는 다소 어려울 수 있으나, 복잡한 계산을 직접 하는 것이 아니므로 큰 틀에서 왜 이런 개념이 중요한지와 어떤 원리로 분석되는지, 결과를 어떻게 해석할지에 집중하면 됩니다.
(학습 전략)
통계, 기계학습, 인공지능 관련 기본 지식은 앞으로 나올 토픽에서 계속 언급되기 때문에 관련 개념, 원리를 반복적으로 학습하여 익숙해지는 게 중요합니다.
금융 데이터 분석에서 많이 활용되는 회귀분석, 서포트 벡터 머신, 시계열 분석에 대해 다룹니다. 개별 분석 모델에 대한 기본 개념을 배우고, 예측 모델링(predictive modeling) 전반에 대해 학습합니다. 데이터 마이닝, 데이터 세분화, 정보 이론(정보, 엔트로피 등), 트리 기반 모델 등에 대해 배웁니다. 그리고 서포트 벡터 머신 및 로지스틱 회귀분석의 주요 개념과 활용, 단순 회귀분석과 다중 회귀분석의 분석상 유의사항, AR, GARCH 등 시계열 모델의 개념과 모델 검증 방법 등에 대해 학습합니다.
(학습 전략)
토픽3은 수리적 배경 지식을 많이 필요로 합니다. 비전공자라면 이번 기회에 관련 수식을 익힐 좋은 기회로 삼을 수 있습니다. 다행히도 모든 수식을 외우거나 실제 계산할 필요는 없습니다. 수식과 알고리즘이 무엇을 의미하는지, 어떻게 활용하는지에 집중하면 됩니다.
실제 데이터를 가지고 모델을 학습하는 방법을 배웁니다. 전체 데이터를 학습 데이터, 검증 데이터, 테스트 데이터 등을 구분하고, 교차 검증 방법 등을 통해 모델링하는 방법을 학습합니다. 일반화, 오버피팅, 정규화 등의 개념과 왜 이런 개념이 중요한지를 배웁니다. 그리고 실제 사례를 통해 회귀분석과 트리 기반 모델과 관련하여 변수 선별 방법, 모델의 성능 지표 등의 개념과 일반화, 오버피팅, 정규화 등을 어떻게 적용하는지를 다룹니다.
(학습 전략)
실제 데이터를 어떻게 모델링하는지와 실무상 예측 모델을 적용함에 있어 발생 가능한 이슈를 배울 수 있습니다. 실제 해당 업무를 수행하는 금융 종사자 혹은 데이터 분석가는 업무에 직, 간접적으로 활용할 수 있을 것이라 판단됩니다.
분류 및 군집화에 대해 집중적으로 배웁니다. 유사성을 어떻게 정의하고, 측정하는지에 따라 그룹내 데이터 분류와 군집화가 달라질 수 있습니다. 거리, Nearest-Neighbor 등을 통해 실제 데이터에 대한 분류와 군집화 사례를 살펴봅니다. 또한, 혼동 행렬(confusion matrix) 등을 통한 분류기(classifier)의 성능을 평가하고, 기댓값 등 확률론에 기반하는 분류기 평가 등도 학습합니다.
(학습 전략)
실제 데이터를 활용한 분류 모델링, 군집화를 배울 수 있습니다. 분류 및 군집화에 쓰이는 용어의 개념을 확실하게 암기하고, 실제 분류 모델링 과정을 따라가면서 과정상 중요 내용과 성능 평가를 어떻게 하는지를 중점적으로 학습하면 됩니다. 실무상 직, 간접적으로 활용할 수 있을 것이라 판단됩니다.
모델 성능을 시각화한 그래프인 Profit curve, Cumulative response curve, ROC curve 등에 대해 배웁니다. curve 그래프의 의미와 어떻게 해석하는지를 학습합니다. 그리고 실제 금융 데이터 모델링 과정에서 흔히들 보이는 1종 오류(false positives)의 원인을 살펴보고, 1종 오류를 피하기 위한 백테스팅 프로토콜을 배웁니다. 또한, p-value 해석시 유의사항, 다중 테스트에 따른 편향 등에 대해 최신 논문을 통해 학습합니다.
(학습 전략)
이전 토픽에서 기본 개념과 모델링하는 기법에 집중했다면, 토픽6은 모델의 성능을 어떻게 평가하는지에 집중합니다. 그리고 모델 검증시 활용되는 통계량을 해석함에 있어 유의해야 될 사항을 학술 논문을 통해 살펴봅니다. 기본 개념 학습에서 벗어나 금융 데이터분석 전문가로서 기존 통계량에 대한 비판적 시각과 모델 성능의 객관적 평가 방법 등을 학습합니다.
사전(prior), 사후(posterior), 우도(likelihood) 등 베이지안 접근에 대한 기본 개념을 배우고, 나이브 베이즈 분류기(naive bayes classifier)가 무엇인지 알아보고, 실제 데이터를 통한 분석 결과와 성능 평가 등도 학습합니다. 또한, TF, IDF, TF-IDF, bag of words, N-gram, topic model 등 텍스트 데이터 분석 기법을 배우고, 실제 뉴스 데이터를 통해 주식가격 움직임을 예측하는 예시를 통해 실무적으로 어떻게 활용되는지 학습합니다.
(학습 전략)
텍스트 데이터 마이닝 및 분석 기법의 기본 개념을 배울 수 있습니다. 텍스트 데이터 수집, 가공, 분석, 모델링, 성능 평가 등의 일련의 과정을 실제 뉴스 데이터 등을 통해 학습할 수 있다는 점에서 매우 실용적인 토픽입니다. 자연어 처리의 근간이 되는 개념으로 실무상 활용 범위가 넓다는 점에서 시험 목적 그 이상의 가치를 가지는 토픽이라 생각됩니다.
빅데이터, 기계학습, 인공지능을 비즈니스에 적용하는 과정에서 나타날 수 있는 잠재 위험 요인을 윤리, 개인 사생활 침해, 회사 내부통제 등의 관점에서 살펴봅니다. 금융회사 입장에서 이와 같은 비즈니스를 시작하기 이전, 수행 과정 중 유의해야할 다양한 사항에 대해 배웁니다. 그리고 유럽의 General Data Protection Regulation에 대해서도 배웁니다.
(학습 전략)
이전 토픽들과는 달리 빅데이터, 기계학습, 인공지능 등이 가지는 잠재 위험요인에 대해 배웁니다. 금융회사 관리자 혹은 내부통제 및 감사 등을 담당하는 부서에서 주의 깊게 읽어봐야 할 토픽입니다. 수리적인 내용이 없어 읽기 수월하나 비교적 많은 내용을 암기해야 합니다.
금융 산업에서 활용되는 빅데이터, 기계학습에 대해 기술한 보고서 및 논문으로 구성됩니다. 총 11개 세부 토픽으로 구성되며, 개별 세부 토픽의 주요 내용은 아래와 같습니다. 세부 토픽은 장문의 보고서 혹은 논문입니다. 공통적으로 논문 abstract를 읽고 무슨 내용인지를 파악하고, 스터디가이드의 키워드와 학습 목표 중심으로 학습하는 것이 효율적입니다. 이유는 학습 목표가 논문에서 말하고자 중심 내용 보다 해당 논문에서 주로 활용한 새로운 통계 기법, 기계학습 알고리즘 및 인공지능 기법에 대한 이론에 집중하고 있기 때문입니다.
(학습 전략)
전반적으로 토픽1~8에서 나온 주요 내용과 공통되는 부분이 많다는 측면에서 토픽9를 공부하면서 토픽1~8의 내용을 복습합니다.