[EDA] Correlation (상관계수) - Pearson, Spearman, Kendall, XI
·
AI/Machine Learning
안녕하세요! 이번 포스팅에서는 상관계수에 대해 좋은 논문이 있어서 간단하게 소개드립니다. 캐글이나 데이콘에서 데이터 탐색 파트를 살펴보면 Pearson 상관계수나, Spearman 상관계수를 많이 사용하더라고요. 두 상관계수 모두 훌륭한 측정치로 두 변수가 선형적이거나 단조관계일 때 수치적으로 잘 나타낼 수 있습니다. 하지만, 두 상관계수 모두 변수가 대칭적인 관계나 주기적인 패턴을 보이고 있는 경우에는 효과적이지 않은데요! 이런 경우 오늘 소개할 XI Correlation을 사용하여 효과적으로 나타낼 수 있으며 아래 PPT를 확인해주세요! 0. Correlation 소개 1. 시각화 함수 작성 우선 R로 작성한 함수는 ("x"와 "y" 변수가 있는) 데이터 프레임이 주어졌을 때, 기존에 많이 사용하는 ..
[Regression & Classifcation] Decision Tree
·
AI/Machine Learning
안녕하세요. 이번 포스팅에서는 의사결정나무에 대해 알아보겠습니다. 1. 트리의 원리한국인이라면 어릴적에 스무고개 게임을 전부 해보셨을 것 같습니다. 정답에 대해 질문을 하면 예/아니요 답변을 듣고 정답을 맞춰가는 게임인데요. 오늘 알아볼 의사결정나무는 이러한 과정과 유사하게 진행됩니다.좀 더 구체적으로 말하면 분기마다 모델에 사용하는 설명변수($X_1, X_2, \cdots, X_p$)가 구성하는 Sample Space를 더 작은 영역인 Sub-Space들로 나누는데요. 이때, 하나의 분기에서 여러개의 Sub-Space로 나눠질 수 있으나 겹치지 않는다는 특징이 있습니다. 트리를 나눌때 Sub-Space의 분산이나 불순도가 최소가 되도록하며, 특정 조건을 만족할때까지 트리를 잘게 쪼개나갑니다. 이렇게 트..
[ISLR] 5. 붓스트랩(Bootstrap)
·
AI/Machine Learning
저번 포스팅에는 재표본기법 중 교차검증(Cross-Validation)에 대해 알아보았는데요. 이번 포스팅에서는 리샘플링 기법 중 붓스트랩에 대해 알아보겠습니다. 1. Bootstrap 붓스트랩(Bootstrap)은 평균이나 분산과 같이 관심이 있는 통계량의 분포를 알아볼 때 유용합니다. 붓스트랩은 기존의 표본으로부터 새로운 표본셋을 얻는 방법입니다. 기존의 표본에 포함된 관측치가 n개가 있다면, 표본에서 복원추출(with Replacement) 방식으로 n개의 관측치를 표집(Sampling)하는 과정을 B번 진행합니다. 이렇게 붓스트랩을 표본에 적용하면 통계량을 계산할 데이터를 B개를 얻을 수 있게 됩니다. (관측치는 n*B개) ( * 샘플에서 복원추출하므로 중복되는 관측치가 존재할 수 있고 기존 샘플..
[ISLR] 5. 교차검증(Cross-Validation)
·
AI/Machine Learning
안녕하세요. 저번 포스팅에서는 tidymodels와 parsnip 패키지를 이용해 분류를 진행했는데요. 이번 포스팅에서는 재표본추출 중 교차검증에 대해 알아보려고 합니다. 재표본추출에는 교차검증(Cross-Validation)과 붓스트랩(Bootstrap)으로 구성되는데요 그중에서 교차검증은 하나의 데이터를 훈련데이터와 검정데이터로 나누어 모델을 학습하고 평가하는 방법입니다. 교차검증(Cross-Validation) 1. VSA(Validation Set Approach) 데이터를 임의의 두 부분으로 나누어 Train/Test data로 지정하는 방법 일반적으로 Train data으로 모델을 훈련시키고, Test data로 모델을 평가하는데 사용된다 ML/DL에서 Train/Validation/Test로..
[ISLR] 4. 분류(Classifiction) With R Using Tidymodels
·
AI/Machine Learning
저번 포스팅까지 분류 기법인 로지스틱회귀, LDA, QDA을 알아보았고 분류기를 평가하는 방법에 대해 알아보았습니다. 이번 포스팅에서는 R을 이용한 분석 수행과 결과 해석에 대해 알아보려고 합니다. 분석하려고 하는 데이터셋은 Smarket의 데이터이며 2001년부터 2005년까지 S&P Index의 수익률을 나타냅니다. 변수는 Lag1 ~ Lag5, Volume(거래량), Direction(Up or Down)으로 구성되어 있으며 Direction을 반응변수로 하여 로지스틱회귀분석, LDA, QDA를 진행하려고 합니다. [R 필요 패키지] , , , 로지스틱 회귀분석 : glm(formula, data, family = "binomial") or logistic_reg(engine="glm") LDA :..
[ISLR] 4. 분류모델의 성과지표(Performance Metric)
·
AI/Machine Learning
저번 포스팅까지 분류기법에 적용할 수 있는 로지스틱회귀, LDA, QDA에 대해 알아보았는데요. 이번시간에는 분류 모델의 성능을 측정하는 방법에 대해 알아보겠습니다. 1. 혼동행렬(Confustion Matrix) 로지스틱회귀와 같이 범주 2개인 반응변수를 분류하는 이진 분류기는 두 가지의 오류를 범할 수 있습니다. 실제로는 Positive(양성, 성공)인데 분류기는 이를 Negative(음성, 실패)라고 분류하거나, 실제로는 Negative인데 분류기는 Positive라고 분류할 수 있겠죠. 일반적으로는 두가지 유형의 오류가 발생하는지에 관심이 있으며 이러한 정보를 나타내기 위해 혼동행렬(Confusion Matrix)를 사용합니다. 아래 이미지와 같이 실제 상태와 모델이 분류한 상태를 카운트하며 R에..
[ISLR] 4. 분류(Classification) - 이차선형판별분석(QDA)
·
AI/Machine Learning
안녕하세요. 저번 포스팅에서는 선형판별분석(LDA)에 대해 알아보았는데요. 이번 포스팅에서는 분류기법에 사용되는 또다른 기법인 이차선형판별분석(QDA)에 대해 간단하게 정리하려고 합니다. 1. LDA와 QDA 이전에 배웠던 LDA의 예측 모델은 베이즈 정리에 의해서 유도되었으며 이 과정에서 몇 가지 가정을 하였습니다. 우선 범주형 반응변수 $Y$의 각 클래스에 따른 관측치 $X$값은 평균(벡터)이 다른 다변량 정규분포를 따른다는 점이였고, 다변량 정규분포를 따르지만 공통인 분산(공분산행렬)을 가진다는 점이였죠. 하지만 앞으로 접할 데이터를 살펴보면 공통 분산을 가지고 있지 않은 경우가 많습니다. 이런 경우 적용할 수 있는 기법인 이차선형판별분석(QDA)입니다. 다만 이차선형판별분석 역시 반응변수 Y의 각..
[ISLR] 4.분류(Classification) - 선형판별분석(LDA)
·
AI/Machine Learning
저번 포스팅에서는 로지스틱 회귀분석을 통한 분류를 알아보았는데요. 이번에는 또 다른 분류기법인 선형판별분석에 대해 알아보도록 하겠습니다. 1. 로지스틱 회귀분석과 선형판별분석(LDA) 선형판별분석은 로지스틱회귀분석과 접근하는 방법이 조금 다릅니다. 로지스틱 회귀분석은 일반적으로 2가지 범주에 대해서 적용하는 반면에 선형판별분석은 분류를 하기 위해서는 반응변수 Y가 2개 이상 유한 개의 범주로 구성되어 있어야 하는데요! 이때 반응변수 Y의 각 범주에 대해 설명변수 X의 분포를 모델링하고 베이즈 정리를 통해 $P(Y=k|X=x)$에 대한 추정치를 구합니다. 로지스틱 회귀분석을 이용하지 않고 선형판별분석을 이용해야 하는 경우는 아래와 같습니다. 클래스가 잘 분리될 때 선형판별분석이 로지스틱 회귀분석보다 안정적..