[ISR] 2. 통계학습(Statistical Learning)

2023. 2. 20. 06:30·AI/Machine Learning

과거 <An Introductiion to Statistical Learning with R>을 공부하면서 정리한 내용입니다.

 

1. Advertising 자료

 

  • 200개의 다른 시장에서 제품의 판매 수치와 각 시장에서의 광고예산(TV, 라디오, 신문)을 나타낸 데이터
  • 광고예산 (입력변수, X)와 판매수치 (출력변수, Y) 의 관계는? 
  • 직관적으로 TV, Radio, Newspaper는 출력변수인 Sales에 영향을 주는 것으로 보임

 

 

2. 입력변수와 출력변수

 

  • 입력변수 : 설명변수, predictor, 독립변수라고 불리며 $X=(X_1, X_2, …, X_p)$로 표시
  • 출력변수 : 반응변수, response, 종속변수로 불리면 Y로 표시
  • 관계       :  $y = f(x) + \varepsilon$  ( f : 고정함수,  오차항 : X와 독립이며 평균이 0인 랜덤 오차항 )
  • 통계학습 : f를 추정하는 일련의 기법들

 

 

3. f를 추정하는 이유?

 

  • 예측(Prediction) : f를 잘 추정하여 높은 정확도로 Y를 예측하기 위해서
    • 즉 y값이 주어지지 않은 미지의 데이터에 기존의 데이터를 활용한 모델을 적용하여 합리적인 결론을 도출하기 위해

  • 추론(Inference) :  X와 Y의 관계를 살펴보는 것으로 Y의 예측보다는 f의 형태를 살펴보기 위해
    • 어떤 설명변수들이 반응변수와 관련되어 있는가?
    • 반응변수와 각 설명변수 사이의 상관관계는?
    • 반응변수는 각 설명변수의 선형결합으로 충분히 요약가능한가? 아님 더 복잡한가?

 

 

 

4. f를 추정하는 방법

 

  1. 모수적 방법 (Parametric method)
    • [정의] f의 함수 형태 또는 모양에 대해 가정하고 추정하는 방법 (ex. 선형)
    • [장점] 추정 문제가 단순화된다 (임의의 p차원 함수 f를 추정하는 대신 함수의 파라미터 추정 문제로 바뀜)
    • [단점] 실제 함수 형태와 맞지 않을 확률이 크다 --> 추정이 부정확
  2. 비모수적 방법 (Non-Parametric method)
    • [정의] f의 함수 형태 또는 모양에 대해 가정하지 않고 추정하는 방법
    • [장점] 넓은 범위의 f 형태에 정확하게 적합될 가능성이 있음
    • [단점] p차원의 함수 f를 추정하므로 모수적방법 필요한 관측치보다 훨씬 많은 관측치를 필요로 함

 

따라서 특정 방법이 더 좋다고 얘기할 수 없으며,

자료의 크기(Volume)와 복잡도 그리고 시각화 및 EDA 등을 고려하여 복합적으로 결정해야 함

 

 

 

5. 예측 정확도와 모델 해석력의 관계

  • 일반적으로 유연성이 증가할수록 해석력이 감소함
  • 즉 유연성과 해석력은 반비례 관계에 있다고 볼 수 있음
  • 대표적으로 딥러닝은 예측 정확도가 뛰어나지만 모델 해석력은 낮다는 단점이 있으나, 이를 보완하기 위해 고려대학교 등에서 해석가능모델을 연구하는 것으로 알고 있습니다.

 

 

6. 모델 정확도 평가

  • [배경] 주어진 자료에 대한 특정 통계학습의 예측값과 실제값에 얼마나 잘 맞는지 측정하기 위해 사용
  • [특징] 다양한 모델 평가 방법이 존재
  • [모델선택] 훈련 MSE가 낮은 모델 대신 검정 MSE가 낮은 모델을 선택
  • [예시] $\textbf{MSE} = \frac{1}{n}\sum_{i=1}^{n}(y_i - \widehat{y_i})^2 = \frac{1}{b}\sum_{i=1}^{n}(y_i - \widehat{f(x_i)})^2$

 

 

7. 편향-분산 트레이드오프 (bias-variance tradeoff)

  • 일반적으로 검정 MSE 곡선은 U-curve의 형태를 보이는데, 이는 편향과 분산이 각 유연성에 영향을 주기 때문
  • $\textbf{MSE} = E[(y-\widehat{f(x)})^2] = Var(\widehat{f(x)}) + Bias(\widehat{f(x)})^2 + Var(\epsilon) \geq Var(\epsilon)$

  • 분산(Variance) : 다른 데이터를 사용해 추정하는 경우 f가 변동되는 정도로 유연성이 높을수록 분산도 높아지는 경향 존재
  • 편향(Bias) : 실제 데이터는 복잡한 모델을 따르는 경우가 많은데 이를 훨씬 간단한 모델을 사용함으로 생기는 오차, 일반적으로 유연성이 높을수록 편향은 낮아지는 경향이 존재

 

  • [정리] 유연성이 높을수록 분산이 증가하고 편향이 감소함
    • 처음에는 분산의 증가보다 편향이 더 빠르게 감소 --> 초기에는 검정MSE 감소
    • 특정지점부터는 분산의 증가가 편향의 감소보다 빠름 --> 검정MSE 증가
저작자표시 비영리 변경금지 (새창열림)

'AI > Machine Learning' 카테고리의 다른 글

[ISR] 3. 선형회귀(Linear Regression) Part 4  (0) 2023.03.09
[ISR] 3. 선형회귀(Linear Regression) Part 3  (0) 2023.03.08
[ISR] 3. 선형회귀(Linear Regression) Part 2  (0) 2023.03.08
[ISL] 3. 선형회귀(Linear Regression) Part 1  (0) 2023.02.28
[ISR] 2. Bayes Classifier & KNN  (2) 2023.02.20
'AI/Machine Learning' 카테고리의 다른 글
  • [ISR] 3. 선형회귀(Linear Regression) Part 3
  • [ISR] 3. 선형회귀(Linear Regression) Part 2
  • [ISL] 3. 선형회귀(Linear Regression) Part 1
  • [ISR] 2. Bayes Classifier & KNN
임파카
임파카
[ML & Statistics] 모바일 버전에서 수식 오류가 있어 PC 환경에서 접속하는 것을 권장합니다.
  • 임파카
    무기의 스탯(Stat)
    임파카
  • 전체
    오늘
    어제
    • Study (149)
      • Data Science (44)
        • Modeling (18)
        • Manipulation (21)
        • Visualization (4)
      • Statistics (59)
        • Mathmetical Statistics (53)
        • Categorical DA (1)
      • Web Programming (17)
      • AI (26)
        • Machine Learning (16)
        • Deep Learning (10)
      • 활동 및 프로젝트 (3)
  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
임파카
[ISR] 2. 통계학습(Statistical Learning)
상단으로

티스토리툴바