[EDA] Correlation (상관계수) - Pearson, Spearman, Kendall, XI
·
AI/Machine Learning
안녕하세요! 이번 포스팅에서는 상관계수에 대해 좋은 논문이 있어서 간단하게 소개드립니다. 캐글이나 데이콘에서 데이터 탐색 파트를 살펴보면 Pearson 상관계수나, Spearman 상관계수를 많이 사용하더라고요. 두 상관계수 모두 훌륭한 측정치로 두 변수가 선형적이거나 단조관계일 때 수치적으로 잘 나타낼 수 있습니다. 하지만, 두 상관계수 모두 변수가 대칭적인 관계나 주기적인 패턴을 보이고 있는 경우에는 효과적이지 않은데요! 이런 경우 오늘 소개할 XI Correlation을 사용하여 효과적으로 나타낼 수 있으며 아래 PPT를 확인해주세요! 0. Correlation 소개 1. 시각화 함수 작성 우선 R로 작성한 함수는 ("x"와 "y" 변수가 있는) 데이터 프레임이 주어졌을 때, 기존에 많이 사용하는 ..
[Regression & Classifcation] Decision Tree
·
AI/Machine Learning
안녕하세요. 이번 포스팅에서는 의사결정나무에 대해 알아보겠습니다. 1. 트리의 원리한국인이라면 어릴적에 스무고개 게임을 전부 해보셨을 것 같습니다. 정답에 대해 질문을 하면 예/아니요 답변을 듣고 정답을 맞춰가는 게임인데요. 오늘 알아볼 의사결정나무는 이러한 과정과 유사하게 진행됩니다.좀 더 구체적으로 말하면 분기마다 모델에 사용하는 설명변수($X_1, X_2, \cdots, X_p$)가 구성하는 Sample Space를 더 작은 영역인 Sub-Space들로 나누는데요. 이때, 하나의 분기에서 여러개의 Sub-Space로 나눠질 수 있으나 겹치지 않는다는 특징이 있습니다. 트리를 나눌때 Sub-Space의 분산이나 불순도가 최소가 되도록하며, 특정 조건을 만족할때까지 트리를 잘게 쪼개나갑니다. 이렇게 트..
[Tensorflow] 5. 순환신경망(RNN, Recurrent Neural Network)
·
AI/Deep Learning
안녕하세요! 오랜만에 돌아온 딥러닝 포스팅입니다. 최근에 알약 인식을 위한 프로젝트를 진행하고 있어서 딥러닝 관련 서적을 많이 찾아보게 되는데요.. 이번에도 공부하면서 심플하게 풀어내고자 작성하게 되었습니다. 순환신경망(RNN)은 주식과 같은 시계열 데이터나 문장과 같은 자연어 데이터와 같이 순서가 있는 데이터를 입력으로 받으며 동일 네트워크 구조를 이용하여 변화하는 입력에 대한 출력을 학습하는 방식입니다. 또한 순환신경망의 구조는 아래와 같이 표현할 수 있으며 기존과 다르게 $x_{t-1}$의 데이터를 사용하여 얻은 값인 $h_{t-1}$이 다음 출력값($h_t$)을 계산하기 위해 $x_{t}$와 함께 전달되고 있는 모습을 보입니다. 이제 SimpleRNN, LSTM, GRU 레이어를 통해 대표적인 순..
[Tensorflow] 4. Convolutional Neural Network (CNN)
·
AI/Deep Learning
안녕하세요. 오랜만에 딥러닝을 주제로 글을 작성하네요! 이번 포스팅에서는 이미지 데이터를 처리하는 방법 중 합성곱 신경망에 대해 알아보려고 합니다. 합성곱 신경망은 이미지 또는 영상과 같은 시각적 데이터를 분석하는데 주로 사용되는 인공신경망의 한 종류로 필터링 기법을 적용하여 여러가지 필터들을 생성해내고 학습을 통해 필터들의 값들을 자동으로 조정하여 원하는 결과를 출력하는 방법입니다. 한편으로 이미지 분류를 위한 합성곱 신경망에는 크게 특징 추출기(Feature Extractor)와 분류기(Classifier)로 구분이 가능한데, 추출기에서는 이미지의 특징을 다차원으로 구분한 필터를 사용하여 새로운 이미지(feature map)를 생성합니다. 또한 추출기는 주로 합성곱 레이어와, 풀링 레이어가 혼합된 형..
[ISLR] 5. 붓스트랩(Bootstrap)
·
AI/Machine Learning
저번 포스팅에는 재표본기법 중 교차검증(Cross-Validation)에 대해 알아보았는데요. 이번 포스팅에서는 리샘플링 기법 중 붓스트랩에 대해 알아보겠습니다. 1. Bootstrap 붓스트랩(Bootstrap)은 평균이나 분산과 같이 관심이 있는 통계량의 분포를 알아볼 때 유용합니다. 붓스트랩은 기존의 표본으로부터 새로운 표본셋을 얻는 방법입니다. 기존의 표본에 포함된 관측치가 n개가 있다면, 표본에서 복원추출(with Replacement) 방식으로 n개의 관측치를 표집(Sampling)하는 과정을 B번 진행합니다. 이렇게 붓스트랩을 표본에 적용하면 통계량을 계산할 데이터를 B개를 얻을 수 있게 됩니다. (관측치는 n*B개) ( * 샘플에서 복원추출하므로 중복되는 관측치가 존재할 수 있고 기존 샘플..
[ISLR] 5. 교차검증(Cross-Validation)
·
AI/Machine Learning
안녕하세요. 저번 포스팅에서는 tidymodels와 parsnip 패키지를 이용해 분류를 진행했는데요. 이번 포스팅에서는 재표본추출 중 교차검증에 대해 알아보려고 합니다. 재표본추출에는 교차검증(Cross-Validation)과 붓스트랩(Bootstrap)으로 구성되는데요 그중에서 교차검증은 하나의 데이터를 훈련데이터와 검정데이터로 나누어 모델을 학습하고 평가하는 방법입니다. 교차검증(Cross-Validation) 1. VSA(Validation Set Approach) 데이터를 임의의 두 부분으로 나누어 Train/Test data로 지정하는 방법 일반적으로 Train data으로 모델을 훈련시키고, Test data로 모델을 평가하는데 사용된다 ML/DL에서 Train/Validation/Test로..
[ISLR] 4. 분류(Classifiction) With R Using Tidymodels
·
AI/Machine Learning
저번 포스팅까지 분류 기법인 로지스틱회귀, LDA, QDA을 알아보았고 분류기를 평가하는 방법에 대해 알아보았습니다. 이번 포스팅에서는 R을 이용한 분석 수행과 결과 해석에 대해 알아보려고 합니다. 분석하려고 하는 데이터셋은 Smarket의 데이터이며 2001년부터 2005년까지 S&P Index의 수익률을 나타냅니다. 변수는 Lag1 ~ Lag5, Volume(거래량), Direction(Up or Down)으로 구성되어 있으며 Direction을 반응변수로 하여 로지스틱회귀분석, LDA, QDA를 진행하려고 합니다. [R 필요 패키지] , , , 로지스틱 회귀분석 : glm(formula, data, family = "binomial") or logistic_reg(engine="glm") LDA :..
[ISLR] 4. 분류모델의 성과지표(Performance Metric)
·
AI/Machine Learning
저번 포스팅까지 분류기법에 적용할 수 있는 로지스틱회귀, LDA, QDA에 대해 알아보았는데요. 이번시간에는 분류 모델의 성능을 측정하는 방법에 대해 알아보겠습니다. 1. 혼동행렬(Confustion Matrix) 로지스틱회귀와 같이 범주 2개인 반응변수를 분류하는 이진 분류기는 두 가지의 오류를 범할 수 있습니다. 실제로는 Positive(양성, 성공)인데 분류기는 이를 Negative(음성, 실패)라고 분류하거나, 실제로는 Negative인데 분류기는 Positive라고 분류할 수 있겠죠. 일반적으로는 두가지 유형의 오류가 발생하는지에 관심이 있으며 이러한 정보를 나타내기 위해 혼동행렬(Confusion Matrix)를 사용합니다. 아래 이미지와 같이 실제 상태와 모델이 분류한 상태를 카운트하며 R에..