[ISLR] 4. 분류(Classification) - 이차선형판별분석(QDA)
·
AI/Machine Learning
안녕하세요. 저번 포스팅에서는 선형판별분석(LDA)에 대해 알아보았는데요. 이번 포스팅에서는 분류기법에 사용되는 또다른 기법인 이차선형판별분석(QDA)에 대해 간단하게 정리하려고 합니다. 1. LDA와 QDA 이전에 배웠던 LDA의 예측 모델은 베이즈 정리에 의해서 유도되었으며 이 과정에서 몇 가지 가정을 하였습니다. 우선 범주형 반응변수 $Y$의 각 클래스에 따른 관측치 $X$값은 평균(벡터)이 다른 다변량 정규분포를 따른다는 점이였고, 다변량 정규분포를 따르지만 공통인 분산(공분산행렬)을 가진다는 점이였죠. 하지만 앞으로 접할 데이터를 살펴보면 공통 분산을 가지고 있지 않은 경우가 많습니다. 이런 경우 적용할 수 있는 기법인 이차선형판별분석(QDA)입니다. 다만 이차선형판별분석 역시 반응변수 Y의 각..
[ISLR] 4.분류(Classification) - 선형판별분석(LDA)
·
AI/Machine Learning
저번 포스팅에서는 로지스틱 회귀분석을 통한 분류를 알아보았는데요. 이번에는 또 다른 분류기법인 선형판별분석에 대해 알아보도록 하겠습니다. 1. 로지스틱 회귀분석과 선형판별분석(LDA) 선형판별분석은 로지스틱회귀분석과 접근하는 방법이 조금 다릅니다. 로지스틱 회귀분석은 일반적으로 2가지 범주에 대해서 적용하는 반면에 선형판별분석은 분류를 하기 위해서는 반응변수 Y가 2개 이상 유한 개의 범주로 구성되어 있어야 하는데요! 이때 반응변수 Y의 각 범주에 대해 설명변수 X의 분포를 모델링하고 베이즈 정리를 통해 $P(Y=k|X=x)$에 대한 추정치를 구합니다. 로지스틱 회귀분석을 이용하지 않고 선형판별분석을 이용해야 하는 경우는 아래와 같습니다. 클래스가 잘 분리될 때 선형판별분석이 로지스틱 회귀분석보다 안정적..
[ISLR] 4. 분류(Classification) - 로지스틱 회귀분석(Logistic Regression)
·
AI/Machine Learning
저번 포스팅까지 무려 5회차의 회귀분석에 대해 알아보았는데요..! 이번에는 로지스틱회귀, 선형판별분석, KNN을 이용한 분류에 대해 알아보려고 합니다. 분류는 회귀와 다르게 반응변수 Y를 양적변수(quantitative)가 아닌 질적변수(qualitative)로 두고 분석합니다. 질적변수는 범주형(Categorical)변수로도 불리며 R에서는 factor형을 통해 질적변수를 나타냅니다. 참고로 분류(Classification)에는 포스팅에 나와있는 로지스틱회귀, LDA, QDA 말고도 랜덤포레스트, 부스팅, SVM 등 다양한 기법이 존재합니다. 1. 로지스틱 회귀분석 (Logistic Regression) 반응변수 Y를 직접 모델링 하는 것이 아닌 특정 범주에 속할 확률 $Pr(Y=1|X)$을 모델링 범..
[밑시딥1] 챕터 5~8 요약
·
AI/Deep Learning
"밑바닥부터 시작하는 딥러닝1"은 딥러닝에 대한 중요 아이디어에 대해 말그대로 밑바닥부터 개념을 학습하고 구현하는 서적입니다. 일본인 작가가 집필한 것으로 알고 있는데 엄청 꼼꼼하고 쉽게 잘 작성하셨고 이복연 번역가님께서 훌륭하게 번역해주셔서 막히는 부분없이 수월하게 읽었습니다. 중간중간 파이썬을 이용해 아이디어를 구현하는데 어느정도 파이썬에 익숙하고 딥러닝에 대해 접해본적이 있다면 좀 더 편하게 감상할 수 있을 것 같네요. 특히 수치미분과 오차역전파법 파트는 정말 대단합니다. 관심있으시면 읽어보세요!
[밑시딥1] 챕터 1~4 요약
·
AI/Deep Learning
"밑바닥부터 시작하는 딥러닝1"은 딥러닝에 대한 중요 아이디어에 대해 말그대로 밑바닥부터 개념을 학습하고 구현하는 서적입니다. 일본인 작가가 집필한 것으로 알고 있는데 엄청 꼼꼼하고 쉽게 잘 작성하셨고 이복연 번역가님께서 훌륭하게 번역해주셔서 막히는 부분없이 수월하게 읽었습니다. 중간중간 파이썬을 이용해 아이디어를 구현하는데 어느정도 파이썬에 익숙하고 딥러닝에 대해 접해본적이 있다면 좀 더 편하게 감상할 수 있을 것 같네요. 특히 수치미분과 오차역전파법 파트는 정말 대단합니다. 관심있으시면 읽어보세요!
[ISR] 3. 선형회귀(Linear Regression) Part 5
·
AI/Machine Learning
선형회귀 파트가 참고할게 많아서 부득이하게 길어졌는데 이번 포스팅을 끝으로 회귀분석을 마치려고 합니다. 마지막으로 선형회귀의 잔차분석을 통해 잠재적 문제에 관해 살펴보겠습니다. 1. 비선형성 선형회귀분석의 가정 : 선형성 $(e_i, x_i)$ 또는 $(e_i, \hat{y_i})$ 그래프를 통해 확인 잡음 이외의 패턴이 존재하면 설명변수에 Box-cox 변환, 다항함수, 로그변환 등의 변환을 시도 2. 오차항의 상관성 선형회귀분석의 가정 : 오차항의 독립성 오차항이 독립이 아닌 상관성을 가질 경우 $\varepsilon_i$는 $\varepsilon_{i+1}$에 영향을 끼침 순서에 따른 $(index, e_i)$ 그래프를 통해 확인 또한 상관성이 존재하는 경우, 표준오차를 과소추정 3. 등분산성 위배..
[ISR] 3. 선형회귀(Linear Regression) Part 4
·
AI/Machine Learning
이번 포스팅에서는 가변수와 교호작용항을 포함한 모델에 대해 알아보겠습니다. 지금까지 회귀분석시 설명변수에는 양적변수(quantitative variable)를 사용했지만 사실 질적(qualitative)인 변수를 사용해도 됩니다. Part 3에서 예시로 살펴봤던 연비(hwy)를 배기량(displ)와 연관시켜 설명했지만 배기량 말고도 제조사, 실린더수 등으로도 설명이 가능합니다. 우선 가변수를 설명하기 위해 신용카드 대금 차이를 조사하기 위해 성별(x)과 신용카드 대금(y)이 있는 데이터를 받았다고 생각해 봅시다. 그리고 성별은 남성과 여성의 두 개의 가능한 값을 가지고 질적변수는 가변수로 변환하여 생각할 수 있습니다. 그러므로 모델링은 다음과 같이 생각할 수 있습니다. Model : $Y = \beta_..
[ISR] 3. 선형회귀(Linear Regression) Part 3
·
AI/Machine Learning
이번 포스팅에서는 다중선형회귀에 대해 알아보고자 합니다. (참고로 RSS : 잔차제곱합, ESS : 설명제곱합, TSS : 총제곱합 입니다.) 다중선형회귀는 단순선형회귀와 다르게 하나의 설명변수가 아닌 다수의 설명변수를 사용하여 반응변수를 설명하는 분석방법입니다. 따라서 다중선형회귀모델은 아래와 같은 형태를 가집니다. $Y = \beta_0 + \beta_1X_1 + \cdots + \beta_pX_p + \varepsilon$ [formula 1] 단순선형회귀와 동일하게 회귀계수는 최소제곱법을 사용하여 추정할 수 있습니다. 최소제곱법은 오차를 최소화하는 것이지만 오차를 모르므로 잔차를 이용해서도 추정할 수 있습니다. $$RSS = \sum_{i=1}^{n}e_i^2 = \sum_{i=1}^{n}(y_i..