[Categorical Analysis] 1. Generalized Linear Model(일반화 선형 모델)

2023. 12. 12. 20:12·Statistics

GLM 개요

- 1. GLM

Anova 모형과 단순선형모형을 포함한 여러 가지 모형을 통합된 방식(Parametric regression)으로 접근하는 모델(방법론)로 반응변수 또는 설명변수는 연속형 또는 범주형 변수를 가질 수 있다. 통합된 방식을 가지므로 적합 및 추정 시 같은 알고리즘을 사용하는 장점이 존재

 

- 2. 모델을 사용하는 이유

1. 효과적으로 설명변수와 반응변수의 관계를 기술할 수 있다.

2. 교란변수(Confusing Variable)의 효과를 통제할 수 있다.

3. 모델 파라미터를 추정하여 수량화할 수 있다.

4. 데이터를 평활(Smoothing)한다.

 

- 3. GLM의 구성

1. Random Component : 반응변수 Y의 분포는 정규분포, 이항분포, 포아송분포와 같이 Exponential Family(지수족)에 속해야 한다.

2. Systematic Component : $\eta = x'\beta = \alpha + \beta_1x_1 + \cdots + \beta_px_p$와 같이 설명변수가 선형결합되어 있는 형태

3. Link Function :$\eta = g(E[Y]) = g(u)$처럼 Systematic component와 Random component를 연결시켜 주는 함수 $g$

 

  • OLS & Anova Model : Identity Link function($g(u)=u$) with Normal random component ($Y \sim N$)
  • Logistic Regression : Logit Link function($g(u) = \frac{u}{1-u}$) with Bernoulli(Binomial) random component($Y \sim B$) 
  • Loglinear Regression : Log Link function($g(u)=u$) with Poission random component ($Y \sim Poisson$)
  • 위 예시는 일반적으로 사용하는 표준연결함수(Canonical Link function)로 다른 Link function을 사용해도 됨

 

Binary Response or Probability Modeling

1. Linear Probability Model 

- Using Identity link function with Bernoulli(Binomial) random component

- Model : $\pi(x) = E[Y|x] = \alpha + \beta_1x_1 + \cdots + \beta_px_p$

 

  • Note : $Y \sim Bernoulli(p)$이므로 $E[Y] = p$
  • Advantage : 식이 간단하고 직관적으로 이해하기 쉬움
  • Disadvantage : 확률을 나타내는 $\pi(x)$의 값이 [0, 1]을 벗어날 수 있음 

2. Logistic Regression Model

- Using Logit link function with Bernoulli(Binomial) random component

- Model : $log(\frac{\pi(x)}{1-\pi(x)}) = \alpha + \beta_1x_1 + \cdots + \beta_px_p$ 

 

  • Note 1 : 일반적으로 확률과 설명변수의 관계는 비선형이다
  • Note 2 : $\pi(x) = \frac{exp(\alpha + \beta_1x_1 + \cdots + \beta_px_p)}{1 + exp(\alpha + \beta_1x_1 + \cdots + \beta_px_p)}$
  • Advantage : 설명변수의 값에 상관없이 확률은 [0, 1]사이의 값을 가짐
  • Disadvantage : 해석할때 사용하는 용어(오즈, 오즈비)를 직관적으로 이해하기 어려우며 모델 및 ML적합시 식이 복잡하다

3. Probit Model

- Using Probit link function with Bernoulli(Binomial) random component

- Model : $\phi^{-1}[\pi(x)] = probit(\pi(x)) = \alpha + \beta_1x_1 + \cdots + \beta_px_p$ 

 

  • Note1 : $\phi$는 표준정규분포의 CDF를 나타냄
  • Note2 : 로지스틱 회귀분석과 비슷한 결과를 나타내나 회귀계수 추정치는 상당히 다를 수 있음
  • Note3 : 금융경제에서 많이 사용하는 것으로 알고 있음

 

Count & Rate Response Modeling

1. Poisson Log-linear Regression

- Using Log link function with Poisson random component

- Model : $g(u) = log(u) = \alpha + \beta_1x_1 + \cdots + \beta_px_p$

 

  • Note1 : 반응변수 Y가 평균이 $u$인 포아송분포를 따르므로 $E[Y] = u$
  • Note2 : $u = exp(\alpha)*exp(\beta_1x_1 + \cdots + \beta_px_p)$
  • Note3 : x가 1 단위 증가하면 Y의 평균의 기댓값은 $exp(\beta)$배 만큼 증가한다.

2. Poisson Regression with Identity link function

- Using Identity link function with Poisson random component

- Model : $g(u) = u = \alpha + \beta_1x_1 + \cdots + \beta_px_p$

 

  • Note : 설명변수와 반응변수의 평균이 선형적일때 잘 맞는다.

 

3. Negative Binomial Regression

- Poisson regression에서 반응변수는 포아송분포를 따르므로 설명변수가 주어질때 기댓값과 분산의 기댓값은 비슷해야하지만

   많은 자료에서 기대되는 분산보다 더 큰 현상인 Overdispersion(과산포)가 발생할 때 사용할 수 있음

- Using Log link function with Negative Binomial random component

 

 

4. Rate data

- 자료의 빈도보다는 사건이 일어날때의 비율에 대한 모델링이 더 적절한 경우 offset을 설정하여 적합가능

- 예를 들면, 열차 충돌 사고가 시간이 지날수록 빈도가 높아진다는 가설을 입증하기 위해 모델링을 한다면 연도(x)와 빈도(Y)에 대해 

   모델링을 하는것보다는 열차운행거리(t)에 따른 비율(Y/t)에 대해 모델링을 하는 것이 나음

- loglinear model for rate data : $log(u/t) = \alpha + \beta_1x_1 + \cdots + \beta_px_p$ (offset = log(t))

 

  • 오프셋(offset)은 설명변수와 다르게 회귀계수를 가지지 않음

 

Statistical Inference for Significance test of $H_0 : \beta = \beta_0$

1. Rao-Score Statstics

- Statstics : $U'(\theta_0)I^{-1}(\theta_0)U(\theta_0) \approx \lambda^2(p)$을 이용하여 검정

 

  • $U(\theta) = \frac{\partial^2 }{\partial \theta^2}log(L(\theta))$
  • $L(\theta)$는 $\theta$에 대한 likelihood function
  • $I(\theta)$는 Fisher Information
  • 주어진 데이터를 사용한 가능도함수의 일차미분과 이차미분을 가지고 귀무가설 검정

 

2. Wald Statistics

- Statistics : $(\widehat{\theta}-\theta_0)'i(\widehat{\theta})(\widehat{\theta}-\theta_0) \approx \lambda^2(p)$를 이용하여 검정

 

  • $\widehat{\theta}$는 $\theta$의 Maximum Likelihood Estimation
  • $i(\widehat{\theta}$는 Sample Information Matrix

 

3. Likelihood-ratio Statistics

- Statistics : $-2(logL(\theta_0)-logL(\widehat{\theta})) \approx \lambda^2(p)$를 이용하여 검정

 

  • $L(\theta_0)$ : $H_0$일때의 likelihood
  • $L(\widehat{\theta})$ : Maximum likelihood of $\theta$

 

Model Comparison and Residual

- $M_1$을 복잡한 모델, $M_0$를 M1에서 단순화한 모델이라고 하면 두 모델의 이탈도 차이를 통해 모델 비교를 할 수 있다.

- $Deviance_0 - Deviance_1 \sim \lambda^2(df_1-df_0)$을 통해 검정할 수 있으며 귀무가설은 두 모델이 자료를 설명하는 정도가 같다이다.

- 즉 귀무가설 채택시 $M_1$에서 $M_0$로 축소가 가능하다.

 

  • Note : Deviance = $-2(l_m-l_s)$ ($l$ : maximized log-likelihood value, s : 포화모형, m : 관심있는 모델)

 

- (Pearson) Residual : $\frac{y_i - \widehat{u_i}}{\sqrt(var(y_i)}$

- Standardized Residual : $\frac{y_i - \widehat{u_i}}{\sqrt(var(y_i-\widehat{u_i})}$

 

  • Note : Standardized Residual이 근사적으로 정규분포를 만족

 

Logistic Regression, Poisson Regression을 각각 2파트 정도 나누어 포스팅 할 예정인데 tidymodels 패키지를 이용해서 설명해보려고 합니다. 관심있으신 분들은 tidyverse, tidymodels 패키지에 대해 공부하면 좋을 듯 합니다.

저작자표시 비영리 변경금지 (새창열림)

'Statistics' 카테고리의 다른 글

불편성(Unbiasedness)와 일치성(Consistency)  (0) 2024.12.24
[회귀분석] 부분 F 검정 (Partial F Test)  (0) 2023.03.03
[회귀분석] 다중선형회귀(Multiple Linear Regression)  (0) 2023.03.03
[회귀분석] 단순선형회귀분석(Simple Linear Regression)  (0) 2023.03.03
'Statistics' 카테고리의 다른 글
  • 불편성(Unbiasedness)와 일치성(Consistency)
  • [회귀분석] 부분 F 검정 (Partial F Test)
  • [회귀분석] 다중선형회귀(Multiple Linear Regression)
  • [회귀분석] 단순선형회귀분석(Simple Linear Regression)
임파카
임파카
[ML & Statistics] 모바일 버전에서 수식 오류가 있어 PC 환경에서 접속하는 것을 권장합니다.
  • 임파카
    무기의 스탯(Stat)
    임파카
  • 전체
    오늘
    어제
    • Study (149)
      • Data Science (44)
        • Modeling (18)
        • Manipulation (21)
        • Visualization (4)
      • Statistics (59)
        • Mathmetical Statistics (53)
        • Categorical DA (1)
      • Web Programming (17)
      • AI (26)
        • Machine Learning (16)
        • Deep Learning (10)
      • 활동 및 프로젝트 (3)
  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
임파카
[Categorical Analysis] 1. Generalized Linear Model(일반화 선형 모델)
상단으로

티스토리툴바