[ISR] 2. 통계학습(Statistical Learning) — 무기의 스탯(Stat)

과거 <An Introductiion to Statistical Learning with R>을 공부하면서 정리한 내용입니다.

1. Advertising 자료

200개의 다른 시장에서 제품의 판매 수치와 각 시장에서의 광고예산(TV, 라디오, 신문)을 나타낸 데이터
광고예산 (입력변수, X)와 판매수치 (출력변수, Y) 의 관계는?
직관적으로 TV, Radio, Newspaper는 출력변수인 Sales에 영향을 주는 것으로 보임

2. 입력변수와 출력변수

입력변수 : 설명변수, predictor, 독립변수라고 불리며 $X=(X_1, X_2, …, X_p)$로 표시
출력변수 : 반응변수, response, 종속변수로 불리면 Y로 표시
관계 : $y = f(x) + \varepsilon$ ( f : 고정함수, 오차항 : X와 독립이며 평균이 0인 랜덤 오차항 )
통계학습 : f를 추정하는 일련의 기법들

3. f를 추정하는 이유?

예측(Prediction) : f를 잘 추정하여 높은 정확도로 Y를 예측하기 위해서
- 즉 y값이 주어지지 않은 미지의 데이터에 기존의 데이터를 활용한 모델을 적용하여 합리적인 결론을 도출하기 위해

추론(Inference) : X와 Y의 관계를 살펴보는 것으로 Y의 예측보다는 f의 형태를 살펴보기 위해
- 어떤 설명변수들이 반응변수와 관련되어 있는가?
- 반응변수와 각 설명변수 사이의 상관관계는?
- 반응변수는 각 설명변수의 선형결합으로 충분히 요약가능한가? 아님 더 복잡한가?

4. f를 추정하는 방법

모수적 방법 (Parametric method)
- [정의] f의 함수 형태 또는 모양에 대해 가정하고 추정하는 방법 (ex. 선형)
- [장점] 추정 문제가 단순화된다 (임의의 p차원 함수 f를 추정하는 대신 함수의 파라미터 추정 문제로 바뀜)
- [단점] 실제 함수 형태와 맞지 않을 확률이 크다 --> 추정이 부정확
비모수적 방법 (Non-Parametric method)
- [정의] f의 함수 형태 또는 모양에 대해 가정하지 않고 추정하는 방법
- [장점] 넓은 범위의 f 형태에 정확하게 적합될 가능성이 있음
- [단점] p차원의 함수 f를 추정하므로 모수적방법 필요한 관측치보다 훨씬 많은 관측치를 필요로 함

따라서 특정 방법이 더 좋다고 얘기할 수 없으며,

자료의 크기(Volume)와 복잡도 그리고 시각화 및 EDA 등을 고려하여 복합적으로 결정해야 함

5. 예측 정확도와 모델 해석력의 관계

일반적으로 유연성이 증가할수록 해석력이 감소함
즉 유연성과 해석력은 반비례 관계에 있다고 볼 수 있음
대표적으로 딥러닝은 예측 정확도가 뛰어나지만 모델 해석력은 낮다는 단점이 있으나, 이를 보완하기 위해 고려대학교 등에서 해석가능모델을 연구하는 것으로 알고 있습니다.

6. 모델 정확도 평가

[배경] 주어진 자료에 대한 특정 통계학습의 예측값과 실제값에 얼마나 잘 맞는지 측정하기 위해 사용
[특징] 다양한 모델 평가 방법이 존재
[모델선택] 훈련 MSE가 낮은 모델 대신 검정 MSE가 낮은 모델을 선택
[예시] $\textbf{MSE} = \frac{1}{n}\sum_{i=1}^{n}(y_i - \widehat{y_i})^2 = \frac{1}{b}\sum_{i=1}^{n}(y_i - \widehat{f(x_i)})^2$

7. 편향-분산 트레이드오프 (bias-variance tradeoff)

일반적으로 검정 MSE 곡선은 U-curve의 형태를 보이는데, 이는 편향과 분산이 각 유연성에 영향을 주기 때문
$\textbf{MSE} = E[(y-\widehat{f(x)})^2] = Var(\widehat{f(x)}) + Bias(\widehat{f(x)})^2 + Var(\epsilon) \geq Var(\epsilon)$

분산(Variance) : 다른 데이터를 사용해 추정하는 경우 f가 변동되는 정도로 유연성이 높을수록 분산도 높아지는 경향 존재
편향(Bias) : 실제 데이터는 복잡한 모델을 따르는 경우가 많은데 이를 훨씬 간단한 모델을 사용함으로 생기는 오차, 일반적으로 유연성이 높을수록 편향은 낮아지는 경향이 존재

[정리] 유연성이 높을수록 분산이 증가하고 편향이 감소함
- 처음에는 분산의 증가보다 편향이 더 빠르게 감소 --> 초기에는 검정MSE 감소
- 특정지점부터는 분산의 증가가 편향의 감소보다 빠름 --> 검정MSE 증가

저작자표시 비영리 변경금지 (새창열림)

'AI > Machine Learning' 카테고리의 다른 글

[ISR] 3. 선형회귀(Linear Regression) Part 4 (0)	2023.03.09
[ISR] 3. 선형회귀(Linear Regression) Part 3 (0)	2023.03.08
[ISR] 3. 선형회귀(Linear Regression) Part 2 (0)	2023.03.08
[ISL] 3. 선형회귀(Linear Regression) Part 1 (0)	2023.02.28
[ISR] 2. Bayes Classifier & KNN (2)	2023.02.20

티스토리툴바