[ISR] 2. Bayes Classifier & KNN

2023. 2. 20. 16:57·AI/Machine Learning

과거 <An Introductiion to Statistical Learning with R>을 공부하면서 정리한 내용입니다.

 

회귀에서는 모델 정확도 지표로 MSE를 주로 사용하지만 분류에서는 오차율(error rate)를 자주 사용합니다.

보통 분류 모델을 개발할 때, 주어진 데이터 셋을 보면 $(x_1, y_1), (x_2, y_2), \cdots, (x_n, y_n)$ 으로 구성되어 있으며,

$y_i$는 사전에 정의된 클래스에 속해 있는 질적(범주형) 변수입니다.

 

이때 오차율은 다음과 같이 정의하며 $ I(y_{i} \neq \widehat{y_{i}}) $는 지시변수로 $ y_{i} $ 와 $\widehat{y_i}$가 같이 않다면 1을, 같다면 0을 출력하는 변수입니다.

 

$$ \textbf{ER} = \frac{1}{n}\sum_{i=1}^{n} \textbf{I} (y_i \neq \widehat{y_i}) $$

 

ER(error rate)는 잘못 분류된 관측치를 전체 관측치로 나누는 것으로 낮을수록 분류가 잘 되었다고 볼 수 있습니다.

또한 회귀 문제와 마찬가지로 오차율도 훈련 오차율(train ER) 과 검정 오차율(test ER)로 나눌 수 있는데 검정 오차율이 낮은 모델을 목표로 합니다.

 

 

1. 베이즈 분류기 (Bayes Classifier)

  • 주어진 설명변수 값에 가장 가능성이 높은 클래스를 할당하는 분류기
  • 베이즈 분류기 = $\underset{j}{Argmax}[Prob(Y=j|X=x_0)]$
  • 베이즈 분류기가 제공하는 검정오차율은 모든 검정오차율 중에서 가장 낮은 값이며 이를 베이즈 오차율이라고 부름
  • 베이즈 오차율 = $1 - E[ \underset{j}{Argmax} (Prob(Y=j|X)] )$
  • 다만, 실제 데이터에서는 조건부 분포를 모르기에 사용하기 어려움

 

 

2. KNN (K-Nearest Neighbors)

  • 비모수적 방법 (Non-Parameter Method)
  • 관측치 $x_0$에 대해 가장 가까운 점 K개를 식별 후 해당 점들($N_0)$ 중에서 가장 많이 나오는 클래스를 할당하는 방법
  • $\underset{j}{Argmax} (Prob(Y=j  |  X=x_0) = \frac{1}{K} \sum_{i \in N_0}^{} I(y_i = j))$
  • K의 선택에 따라 결과가 다르며, K가 작을수록 유연해지며, K가 클수록 선형에 가까운 결정경계 제공
  • 차원이 많을수록(변수의 수가 클수록) 거리가 멀어지므로 오차율이 높아질 수 있음 (차원의 저주)

 

저작자표시 비영리 변경금지 (새창열림)

'AI > Machine Learning' 카테고리의 다른 글

[ISR] 3. 선형회귀(Linear Regression) Part 4  (0) 2023.03.09
[ISR] 3. 선형회귀(Linear Regression) Part 3  (0) 2023.03.08
[ISR] 3. 선형회귀(Linear Regression) Part 2  (0) 2023.03.08
[ISL] 3. 선형회귀(Linear Regression) Part 1  (0) 2023.02.28
[ISR] 2. 통계학습(Statistical Learning)  (0) 2023.02.20
'AI/Machine Learning' 카테고리의 다른 글
  • [ISR] 3. 선형회귀(Linear Regression) Part 3
  • [ISR] 3. 선형회귀(Linear Regression) Part 2
  • [ISL] 3. 선형회귀(Linear Regression) Part 1
  • [ISR] 2. 통계학습(Statistical Learning)
임파카
임파카
[ML & Statistics] 모바일 버전에서 수식 오류가 있어 PC 환경에서 접속하는 것을 권장합니다.
  • 임파카
    무기의 스탯(Stat)
    임파카
  • 전체
    오늘
    어제
    • Study (149)
      • Data Science (44)
        • Modeling (18)
        • Manipulation (21)
        • Visualization (4)
      • Statistics (59)
        • Mathmetical Statistics (53)
        • Categorical DA (1)
      • Web Programming (17)
      • AI (26)
        • Machine Learning (16)
        • Deep Learning (10)
      • 활동 및 프로젝트 (3)
  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
임파카
[ISR] 2. Bayes Classifier & KNN
상단으로

티스토리툴바