과거 <An Introductiion to Statistical Learning with R>을 공부하면서 정리한 내용입니다.
회귀에서는 모델 정확도 지표로 MSE를 주로 사용하지만 분류에서는 오차율(error rate)를 자주 사용합니다.
보통 분류 모델을 개발할 때, 주어진 데이터 셋을 보면 $(x_1, y_1), (x_2, y_2), \cdots, (x_n, y_n)$ 으로 구성되어 있으며,
$y_i$는 사전에 정의된 클래스에 속해 있는 질적(범주형) 변수입니다.
이때 오차율은 다음과 같이 정의하며 $ I(y_{i} \neq \widehat{y_{i}}) $는 지시변수로 $ y_{i} $ 와 $\widehat{y_i}$가 같이 않다면 1을, 같다면 0을 출력하는 변수입니다.
$$ \textbf{ER} = \frac{1}{n}\sum_{i=1}^{n} \textbf{I} (y_i \neq \widehat{y_i}) $$
ER(error rate)는 잘못 분류된 관측치를 전체 관측치로 나누는 것으로 낮을수록 분류가 잘 되었다고 볼 수 있습니다.
또한 회귀 문제와 마찬가지로 오차율도 훈련 오차율(train ER) 과 검정 오차율(test ER)로 나눌 수 있는데 검정 오차율이 낮은 모델을 목표로 합니다.
1. 베이즈 분류기 (Bayes Classifier)
- 주어진 설명변수 값에 가장 가능성이 높은 클래스를 할당하는 분류기
- 베이즈 분류기 = $\underset{j}{Argmax}[Prob(Y=j|X=x_0)]$
- 베이즈 분류기가 제공하는 검정오차율은 모든 검정오차율 중에서 가장 낮은 값이며 이를 베이즈 오차율이라고 부름
- 베이즈 오차율 = $1 - E[ \underset{j}{Argmax} (Prob(Y=j|X)] )$
- 다만, 실제 데이터에서는 조건부 분포를 모르기에 사용하기 어려움
2. KNN (K-Nearest Neighbors)
- 비모수적 방법 (Non-Parameter Method)
- 관측치 $x_0$에 대해 가장 가까운 점 K개를 식별 후 해당 점들($N_0)$ 중에서 가장 많이 나오는 클래스를 할당하는 방법
- $\underset{j}{Argmax} (Prob(Y=j | X=x_0) = \frac{1}{K} \sum_{i \in N_0}^{} I(y_i = j))$
- K의 선택에 따라 결과가 다르며, K가 작을수록 유연해지며, K가 클수록 선형에 가까운 결정경계 제공
- 차원이 많을수록(변수의 수가 클수록) 거리가 멀어지므로 오차율이 높아질 수 있음 (차원의 저주)
'AI > Machine Learning' 카테고리의 다른 글
[ISR] 3. 선형회귀(Linear Regression) Part 4 (0) | 2023.03.09 |
---|---|
[ISR] 3. 선형회귀(Linear Regression) Part 3 (0) | 2023.03.08 |
[ISR] 3. 선형회귀(Linear Regression) Part 2 (0) | 2023.03.08 |
[ISL] 3. 선형회귀(Linear Regression) Part 1 (0) | 2023.02.28 |
[ISR] 2. 통계학습(Statistical Learning) (0) | 2023.02.20 |