GLM 개요
- 1. GLM
Anova 모형과 단순선형모형을 포함한 여러 가지 모형을 통합된 방식(Parametric regression)으로 접근하는 모델(방법론)로 반응변수 또는 설명변수는 연속형 또는 범주형 변수를 가질 수 있다. 통합된 방식을 가지므로 적합 및 추정 시 같은 알고리즘을 사용하는 장점이 존재
- 2. 모델을 사용하는 이유
1. 효과적으로 설명변수와 반응변수의 관계를 기술할 수 있다.
2. 교란변수(Confusing Variable)의 효과를 통제할 수 있다.
3. 모델 파라미터를 추정하여 수량화할 수 있다.
4. 데이터를 평활(Smoothing)한다.
- 3. GLM의 구성
1. Random Component : 반응변수 Y의 분포는 정규분포, 이항분포, 포아송분포와 같이 Exponential Family(지수족)에 속해야 한다.
2. Systematic Component : $\eta = x'\beta = \alpha + \beta_1x_1 + \cdots + \beta_px_p$와 같이 설명변수가 선형결합되어 있는 형태
3. Link Function :$\eta = g(E[Y]) = g(u)$처럼 Systematic component와 Random component를 연결시켜 주는 함수 $g$
- OLS & Anova Model : Identity Link function($g(u)=u$) with Normal random component ($Y \sim N$)
- Logistic Regression : Logit Link function($g(u) = \frac{u}{1-u}$) with Bernoulli(Binomial) random component($Y \sim B$)
- Loglinear Regression : Log Link function($g(u)=u$) with Poission random component ($Y \sim Poisson$)
- 위 예시는 일반적으로 사용하는 표준연결함수(Canonical Link function)로 다른 Link function을 사용해도 됨
Binary Response or Probability Modeling
1. Linear Probability Model
- Using Identity link function with Bernoulli(Binomial) random component
- Model : $\pi(x) = E[Y|x] = \alpha + \beta_1x_1 + \cdots + \beta_px_p$
- Note : $Y \sim Bernoulli(p)$이므로 $E[Y] = p$
- Advantage : 식이 간단하고 직관적으로 이해하기 쉬움
- Disadvantage : 확률을 나타내는 $\pi(x)$의 값이 [0, 1]을 벗어날 수 있음
2. Logistic Regression Model
- Using Logit link function with Bernoulli(Binomial) random component
- Model : $log(\frac{\pi(x)}{1-\pi(x)}) = \alpha + \beta_1x_1 + \cdots + \beta_px_p$
- Note 1 : 일반적으로 확률과 설명변수의 관계는 비선형이다
- Note 2 : $\pi(x) = \frac{exp(\alpha + \beta_1x_1 + \cdots + \beta_px_p)}{1 + exp(\alpha + \beta_1x_1 + \cdots + \beta_px_p)}$
- Advantage : 설명변수의 값에 상관없이 확률은 [0, 1]사이의 값을 가짐
- Disadvantage : 해석할때 사용하는 용어(오즈, 오즈비)를 직관적으로 이해하기 어려우며 모델 및 ML적합시 식이 복잡하다
3. Probit Model
- Using Probit link function with Bernoulli(Binomial) random component
- Model : $\phi^{-1}[\pi(x)] = probit(\pi(x)) = \alpha + \beta_1x_1 + \cdots + \beta_px_p$
- Note1 : $\phi$는 표준정규분포의 CDF를 나타냄
- Note2 : 로지스틱 회귀분석과 비슷한 결과를 나타내나 회귀계수 추정치는 상당히 다를 수 있음
- Note3 : 금융경제에서 많이 사용하는 것으로 알고 있음
Count & Rate Response Modeling
1. Poisson Log-linear Regression
- Using Log link function with Poisson random component
- Model : $g(u) = log(u) = \alpha + \beta_1x_1 + \cdots + \beta_px_p$
- Note1 : 반응변수 Y가 평균이 $u$인 포아송분포를 따르므로 $E[Y] = u$
- Note2 : $u = exp(\alpha)*exp(\beta_1x_1 + \cdots + \beta_px_p)$
- Note3 : x가 1 단위 증가하면 Y의 평균의 기댓값은 $exp(\beta)$배 만큼 증가한다.
2. Poisson Regression with Identity link function
- Using Identity link function with Poisson random component
- Model : $g(u) = u = \alpha + \beta_1x_1 + \cdots + \beta_px_p$
- Note : 설명변수와 반응변수의 평균이 선형적일때 잘 맞는다.
3. Negative Binomial Regression
- Poisson regression에서 반응변수는 포아송분포를 따르므로 설명변수가 주어질때 기댓값과 분산의 기댓값은 비슷해야하지만
많은 자료에서 기대되는 분산보다 더 큰 현상인 Overdispersion(과산포)가 발생할 때 사용할 수 있음
- Using Log link function with Negative Binomial random component
4. Rate data
- 자료의 빈도보다는 사건이 일어날때의 비율에 대한 모델링이 더 적절한 경우 offset을 설정하여 적합가능
- 예를 들면, 열차 충돌 사고가 시간이 지날수록 빈도가 높아진다는 가설을 입증하기 위해 모델링을 한다면 연도(x)와 빈도(Y)에 대해
모델링을 하는것보다는 열차운행거리(t)에 따른 비율(Y/t)에 대해 모델링을 하는 것이 나음
- loglinear model for rate data : $log(u/t) = \alpha + \beta_1x_1 + \cdots + \beta_px_p$ (offset = log(t))
- 오프셋(offset)은 설명변수와 다르게 회귀계수를 가지지 않음
Statistical Inference for Significance test of $H_0 : \beta = \beta_0$
1. Rao-Score Statstics
- Statstics : $U'(\theta_0)I^{-1}(\theta_0)U(\theta_0) \approx \lambda^2(p)$을 이용하여 검정
- $U(\theta) = \frac{\partial^2 }{\partial \theta^2}log(L(\theta))$
- $L(\theta)$는 $\theta$에 대한 likelihood function
- $I(\theta)$는 Fisher Information
- 주어진 데이터를 사용한 가능도함수의 일차미분과 이차미분을 가지고 귀무가설 검정
2. Wald Statistics
- Statistics : $(\widehat{\theta}-\theta_0)'i(\widehat{\theta})(\widehat{\theta}-\theta_0) \approx \lambda^2(p)$를 이용하여 검정
- $\widehat{\theta}$는 $\theta$의 Maximum Likelihood Estimation
- $i(\widehat{\theta}$는 Sample Information Matrix
3. Likelihood-ratio Statistics
- Statistics : $-2(logL(\theta_0)-logL(\widehat{\theta})) \approx \lambda^2(p)$를 이용하여 검정
- $L(\theta_0)$ : $H_0$일때의 likelihood
- $L(\widehat{\theta})$ : Maximum likelihood of $\theta$
Model Comparison and Residual
- $M_1$을 복잡한 모델, $M_0$를 M1에서 단순화한 모델이라고 하면 두 모델의 이탈도 차이를 통해 모델 비교를 할 수 있다.
- $Deviance_0 - Deviance_1 \sim \lambda^2(df_1-df_0)$을 통해 검정할 수 있으며 귀무가설은 두 모델이 자료를 설명하는 정도가 같다이다.
- 즉 귀무가설 채택시 $M_1$에서 $M_0$로 축소가 가능하다.
- Note : Deviance = $-2(l_m-l_s)$ ($l$ : maximized log-likelihood value, s : 포화모형, m : 관심있는 모델)
- (Pearson) Residual : $\frac{y_i - \widehat{u_i}}{\sqrt(var(y_i)}$
- Standardized Residual : $\frac{y_i - \widehat{u_i}}{\sqrt(var(y_i-\widehat{u_i})}$
- Note : Standardized Residual이 근사적으로 정규분포를 만족
Logistic Regression, Poisson Regression을 각각 2파트 정도 나누어 포스팅 할 예정인데 tidymodels 패키지를 이용해서 설명해보려고 합니다. 관심있으신 분들은 tidyverse, tidymodels 패키지에 대해 공부하면 좋을 듯 합니다.
'Statistics' 카테고리의 다른 글
불편성(Unbiasedness)와 일치성(Consistency) (0) | 2024.12.24 |
---|---|
[회귀분석] 부분 F 검정 (Partial F Test) (0) | 2023.03.03 |
[회귀분석] 다중선형회귀(Multiple Linear Regression) (0) | 2023.03.03 |
[회귀분석] 단순선형회귀분석(Simple Linear Regression) (0) | 2023.03.03 |