[ISLR] 4. 분류(Classification) - 로지스틱 회귀분석(Logistic Regression)
·
AI/Machine Learning
저번 포스팅까지 무려 5회차의 회귀분석에 대해 알아보았는데요..! 이번에는 로지스틱회귀, 선형판별분석, KNN을 이용한 분류에 대해 알아보려고 합니다. 분류는 회귀와 다르게 반응변수 Y를 양적변수(quantitative)가 아닌 질적변수(qualitative)로 두고 분석합니다. 질적변수는 범주형(Categorical)변수로도 불리며 R에서는 factor형을 통해 질적변수를 나타냅니다. 참고로 분류(Classification)에는 포스팅에 나와있는 로지스틱회귀, LDA, QDA 말고도 랜덤포레스트, 부스팅, SVM 등 다양한 기법이 존재합니다. 1. 로지스틱 회귀분석 (Logistic Regression) 반응변수 Y를 직접 모델링 하는 것이 아닌 특정 범주에 속할 확률 $Pr(Y=1|X)$을 모델링 범..
[ISR] 3. 선형회귀(Linear Regression) Part 5
·
AI/Machine Learning
선형회귀 파트가 참고할게 많아서 부득이하게 길어졌는데 이번 포스팅을 끝으로 회귀분석을 마치려고 합니다. 마지막으로 선형회귀의 잔차분석을 통해 잠재적 문제에 관해 살펴보겠습니다. 1. 비선형성 선형회귀분석의 가정 : 선형성 $(e_i, x_i)$ 또는 $(e_i, \hat{y_i})$ 그래프를 통해 확인 잡음 이외의 패턴이 존재하면 설명변수에 Box-cox 변환, 다항함수, 로그변환 등의 변환을 시도 2. 오차항의 상관성 선형회귀분석의 가정 : 오차항의 독립성 오차항이 독립이 아닌 상관성을 가질 경우 $\varepsilon_i$는 $\varepsilon_{i+1}$에 영향을 끼침 순서에 따른 $(index, e_i)$ 그래프를 통해 확인 또한 상관성이 존재하는 경우, 표준오차를 과소추정 3. 등분산성 위배..
[ISR] 3. 선형회귀(Linear Regression) Part 4
·
AI/Machine Learning
이번 포스팅에서는 가변수와 교호작용항을 포함한 모델에 대해 알아보겠습니다. 지금까지 회귀분석시 설명변수에는 양적변수(quantitative variable)를 사용했지만 사실 질적(qualitative)인 변수를 사용해도 됩니다. Part 3에서 예시로 살펴봤던 연비(hwy)를 배기량(displ)와 연관시켜 설명했지만 배기량 말고도 제조사, 실린더수 등으로도 설명이 가능합니다. 우선 가변수를 설명하기 위해 신용카드 대금 차이를 조사하기 위해 성별(x)과 신용카드 대금(y)이 있는 데이터를 받았다고 생각해 봅시다. 그리고 성별은 남성과 여성의 두 개의 가능한 값을 가지고 질적변수는 가변수로 변환하여 생각할 수 있습니다. 그러므로 모델링은 다음과 같이 생각할 수 있습니다. Model : $Y = \beta_..
[ISR] 3. 선형회귀(Linear Regression) Part 3
·
AI/Machine Learning
이번 포스팅에서는 다중선형회귀에 대해 알아보고자 합니다. (참고로 RSS : 잔차제곱합, ESS : 설명제곱합, TSS : 총제곱합 입니다.) 다중선형회귀는 단순선형회귀와 다르게 하나의 설명변수가 아닌 다수의 설명변수를 사용하여 반응변수를 설명하는 분석방법입니다. 따라서 다중선형회귀모델은 아래와 같은 형태를 가집니다. $Y = \beta_0 + \beta_1X_1 + \cdots + \beta_pX_p + \varepsilon$ [formula 1] 단순선형회귀와 동일하게 회귀계수는 최소제곱법을 사용하여 추정할 수 있습니다. 최소제곱법은 오차를 최소화하는 것이지만 오차를 모르므로 잔차를 이용해서도 추정할 수 있습니다. $$RSS = \sum_{i=1}^{n}e_i^2 = \sum_{i=1}^{n}(y_i..
[ISR] 3. 선형회귀(Linear Regression) Part 2
·
AI/Machine Learning
저번 포스팅에서는 회귀계수에 최소제곱법을 이용하여 $\beta_{1}^{LSM}$과 $\beta_{2}^{LSM}$의 추정량을 보이고 실습했습니다. 이번 포스팅에서는 회귀계수추정량의 표준오차와 검정 그리고 모델의 평가에 대해 알아보겠습니다. 1. 회귀계수추정량의 평균과 표준오차 회귀계수추정량은 모회귀의 절편과 기울기를 나타내는 확률변수이기 때문에 평균과 표준오차(통계량의 표준편차)를 구할 수 있는데요. 오차의 가정(오차의 등분산성, 오차의 무상관성, 정규분포)하에서 아래가 성립합니다. $$\widehat{\beta_0} \sim N(\beta_0, \sigma^2[\frac{1}{n} + \frac{\overline{X}^2}{\sum_{i=1}^{n}{(X_i - \overline{X})^2}}])$$..
[ISL] 3. 선형회귀(Linear Regression) Part 1
·
AI/Machine Learning
1. Overview 단순선형회귀(Simple Linear Regression)는 하나의 양적 설명변수 X에 기초하여 양적 반응변수 Y를 나타내는 기법으로 선형적 상관관계가 존재할때 적용할 수 있습니다. 모델(Model) : $ Y = \beta_{0} + \beta_{1} + \varepsilon $ (단, $\varepsilon \sim N(0, \sigma^2)$ 예측(Prediction) : $ \widehat{Y} = \widehat{\beta_{0}} + \widehat{\beta_{1}}X $ 파라미터(Parameter) : $\beta_{0}$은 회귀모형의 절편(Intercept), $\beta_{1}$은 회귀모형의 기울기(Slope)를 의미 파라미터 계수 추정 : 최소제곱법(Least S..
[ISR] 2. Bayes Classifier & KNN
·
AI/Machine Learning
과거 을 공부하면서 정리한 내용입니다. 회귀에서는 모델 정확도 지표로 MSE를 주로 사용하지만 분류에서는 오차율(error rate)를 자주 사용합니다. 보통 분류 모델을 개발할 때, 주어진 데이터 셋을 보면 $(x_1, y_1), (x_2, y_2), \cdots, (x_n, y_n)$ 으로 구성되어 있으며, $y_i$는 사전에 정의된 클래스에 속해 있는 질적(범주형) 변수입니다. 이때 오차율은 다음과 같이 정의하며 $ I(y_{i} \neq \widehat{y_{i}}) $는 지시변수로 $ y_{i} $ 와 $\widehat{y_i}$가 같이 않다면 1을, 같다면 0을 출력하는 변수입니다. $$ \textbf{ER} = \frac{1}{n}\sum_{i=1}^{n} \textbf{I} (y_i \ne..
[ISR] 2. 통계학습(Statistical Learning)
·
AI/Machine Learning
과거 을 공부하면서 정리한 내용입니다. 1. Advertising 자료 200개의 다른 시장에서 제품의 판매 수치와 각 시장에서의 광고예산(TV, 라디오, 신문)을 나타낸 데이터 광고예산 (입력변수, X)와 판매수치 (출력변수, Y) 의 관계는? 직관적으로 TV, Radio, Newspaper는 출력변수인 Sales에 영향을 주는 것으로 보임 2. 입력변수와 출력변수 입력변수 : 설명변수, predictor, 독립변수라고 불리며 $X=(X_1, X_2, …, X_p)$로 표시 출력변수 : 반응변수, response, 종속변수로 불리면 Y로 표시 관계 : $y = f(x) + \varepsilon$ ( f : 고정함수, 오차항 : X와 독립이며 평균이 0인 랜덤 오차항 ) 통계학습 : f를 추정하는 일련의..