1. 부분 F 검정
회귀모형 $Y = \beta_0 + \beta_1X_1 + \cdots + \beta_{p-1}X_{p-1} + \varepsilon$에 대해 F검정을 실시하였을때
귀무가설인 $\beta_0 = \beta_1 = \cdots = \beta_{p-1} = 0$을 귀각하게 된다면 적어도 1개 이상의 $\beta_{j}$는 0이 아니라는 것을 의미합니다.
이 경우 회귀계수에 대해 개별적으로 t검정을 해서 해당 회귀계수가 0인지 판단하는 것은 좋은 판단이지만 여러개의 회귀계수에 대해 동시에 여러 회귀계수가 동시에 0인지 유무를 판단하기 위해 개별 회귀계수에 t검정을 적용하는 것은 신뢰도에 문제가 생기게 됩니다. 따라서 적어도 1개 이상의 회귀계수가 0이 아니라는 F검정 결과에서 특정 회귀계수(들)만 동시에 0의 값을 가지는지 궁금하다면 다음과 같은 가설을 설정해야합니다.
$$H_0 : \beta_r = \beta_{r+1} = \cdots = \beta_{p-1} = 0$$
(이때, 0으로 설정하고 싶은 변수들을 뒤쪽으로 옮겨서 다시 설정하면 되므로 변수의 위치는 상관하지 않아도 됩니다)
이제 곰곰히 생각해봅시다. 만약 $H_0$가 사실이라면 회귀모형에 해당 변수들을 추가한 완전모형(Full Model)과 해당 변수들을 제거한 축소모형(Reduced Model)에서는 회귀식으로 인해 설명되는 부분은 비슷하게 나타날 것입니다. 이와 유사하게 데이터가 고정되어 있을때 모형의 형태와 상관없이 총제곱합(SST)는 항상 일정한 값을 가지고 SST = SSR + SSE로 구분할 수 있으므로 귀무가설 하에서 완전모형의 SSE값과 축소모형에서의 SSE값이 비슷하게 나타나야합니다. 만약 비슷하지 않다면 귀무가설이 사실이 아니라고 볼 수 있죠.
(참고로, SSE : 오차제곱합, SSR : 회귀제곱합, SST : 총제곱합)
따라서 주어진 가설에 대한 검정은 위에 내용과 유사하게 진행되며 식은 아래와 같습니다.
$$F_0 = \frac{(SSE(R) - SSE(F))/(p-r)}{SSE(F)/(n-p)} \sim F(p-r, n-p)$$
R에서는 두 모형을 적합한 후 각각 분산분석표를 구해 식에 대입하거나, 적합한 두 모형을 한번에 anova에 대입해서 구할 수 있습니다.
iris 데이터를 가지고 한번 간단하게 확인해 보겠습니다.
str(iris)
lm.full <- lm(Sepal.Length~Sepal.Width+Petal.Length+Petal.Width, data = iris)
lm.reduce <- lm(Sepal.Length ~ Sepal.Width)
anova(lm.reduce, lm.full)

코드에서 볼 수 있듯 $H_0 : \beta_2 = \beta_3 =0$하에서 lm.full 모델이 완전모형이고 lm.reduce 모델이 축소모형입니다.
이때 P-value가 0.05보다 작아 귀무가설을 기각하므로 $\beta_2와 \beta_3$이 동시에 0이 아니라고 볼 수 있습니다.
'Statistics' 카테고리의 다른 글
| 불편성(Unbiasedness)와 일치성(Consistency) (0) | 2024.12.24 |
|---|---|
| [Categorical Analysis] 1. Generalized Linear Model(일반화 선형 모델) (0) | 2023.12.12 |
| [회귀분석] 다중선형회귀(Multiple Linear Regression) (0) | 2023.03.03 |
| [회귀분석] 단순선형회귀분석(Simple Linear Regression) (0) | 2023.03.03 |