[ISR] 2. Bayes Classifier & KNN

과거 <An Introductiion to Statistical Learning with R>을 공부하면서 정리한 내용입니다.

회귀에서는 모델 정확도 지표로 MSE를 주로 사용하지만 분류에서는 오차율(error rate)를 자주 사용합니다.

보통 분류 모델을 개발할 때, 주어진 데이터 셋을 보면 $(x_1, y_1), (x_2, y_2), \cdots, (x_n, y_n)$ 으로 구성되어 있으며,

$y_i$는 사전에 정의된 클래스에 속해 있는 질적(범주형) 변수입니다.

이때 오차율은 다음과 같이 정의하며 $ I(y_{i} \neq \widehat{y_{i}}) $는 지시변수로 $ y_{i} $ 와 $\widehat{y_i}$가 같이 않다면 1을, 같다면 0을 출력하는 변수입니다.

$$ \textbf{ER} = \frac{1}{n}\sum_{i=1}^{n} \textbf{I} (y_i \neq \widehat{y_i}) $$

ER(error rate)는 잘못 분류된 관측치를 전체 관측치로 나누는 것으로 낮을수록 분류가 잘 되었다고 볼 수 있습니다.

또한 회귀 문제와 마찬가지로 오차율도 훈련 오차율(train ER) 과 검정 오차율(test ER)로 나눌 수 있는데 검정 오차율이 낮은 모델을 목표로 합니다.

비모수적 방법 (Non-Parameter Method)
관측치 $x_0$에 대해 가장 가까운 점 K개를 식별 후 해당 점들($N_0)$ 중에서 가장 많이 나오는 클래스를 할당하는 방법
$\underset{j}{Argmax} (Prob(Y=j | X=x_0) = \frac{1}{K} \sum_{i \in N_0}^{} I(y_i = j))$
K의 선택에 따라 결과가 다르며, K가 작을수록 유연해지며, K가 클수록 선형에 가까운 결정경계 제공
차원이 많을수록(변수의 수가 클수록) 거리가 멀어지므로 오차율이 높아질 수 있음 (차원의 저주)

[ISR] 3. 선형회귀(Linear Regression) Part 4 (0)	2023.03.09
[ISR] 3. 선형회귀(Linear Regression) Part 3 (0)	2023.03.08
[ISR] 3. 선형회귀(Linear Regression) Part 2 (0)	2023.03.08
[ISL] 3. 선형회귀(Linear Regression) Part 1 (0)	2023.02.28
[ISR] 2. 통계학습(Statistical Learning) (0)	2023.02.20

티스토리툴바