0. 서두
추정량에 대해 공부하다 보면, 불편성과 일치성이라는 두 가지 용어가 자주 등장합니다.
최근 사회조사분석사에 나오는 통계 파트를 가르치면서 책에서 아래와 같은 불편성과 편의성에 대한 설명을 접했는데, 두 개념의 차이를 구별하는 것이 쉽지 않겠다는 생각이 들었습니다.
- 불편성(Unbiasedness): 추정량의 기댓값이 모수값과 같아지는 성질
- 일치성(Consistency): 표본의 크기가 커질수록 추정량이 모수값에 점점 가까워지는 성질
그래서 이번 포스팅에서는 불편성과 일치성의 개념과 예시를 통한 차이에 대해 살펴보도록 하겠습니다.
1. 불편성과 일치성의 정의
우선, 통계학에서 정의하는 불편성은 다음과 같습니다.
만약 $E(\hat{\theta_n}) = \theta$라면 모수 $\theta$의 점추정량 $\hat{\theta_n}$은 Unbiased하다.
또한, 일치성의 정의는 다음과 같습니다.
만약 $\hat{\theta_n} \xrightarrow[]{p} \theta$라면 모수 $\theta$의 점추정량 $\hat{\theta_n}$은 consistent하다.
여기서 점추정량이 모수로 확률수렴한다는 것은 아래와 같이 표현할 수 있습니다.
$$P(\;\vert \hat{\theta}_n - \theta \vert > \epsilon\;) \xrightarrow[]{} 0 \; \text{ as } \; n \xrightarrow[]{} \infty$$
2. 예시 : 표본분산
표본분산($S_n^2 = \frac{1}{n-1}\sum_i(X_i-\overline{X})^2$)은 아래 성질을 만족하므로, 불편성과 일치성을 모두 충족시킵니다.
(참고 : 표본분산의 특징 https://moogie.tistory.com/153 )
- 불편성 : $E[S_n^2] = \sigma^2$
- 일치성 : $S_n^2 \xrightarrow[]{p} \sigma^2$
3. 예시 : $n$으로 나누는 분산
만약 표본분산을 구할때 $(n-1)$ 대신 $n$으로 나누면 어떻게 될까요? 편의상 이를 $V_n^2$라 정의하면 다음과 같습니다.
$$V_n^2 = \frac{1}{n}\sum_i(X_i - \overline{X})^2$$
이제 불편성과 일치성을 만족하는지 확인해봅시다. 우선 추정량 $V_n^2$의 기댓값은 다음과 같습니다.
\begin{align*} E[V_n^2] &= E[\;\frac{1}{n}\sum_i(X_i - \overline{X})^2\;] \\&= \frac{n-1}{n}E[\;\frac{1}{n-1}\sum_i(X_i - \overline{X})^2\;] \\ &= \frac{n-1}{n}E[\;S_n^2\;] \\ &= \frac{n-1}{n}\sigma^2 \end{align*}
즉 $V_n^2$의 기댓값은 $\frac{n-1}{n}\sigma^2$으로 모수 $\sigma^2$보다 작으므로 불편성을 만족하지 않는 편의추정량(biased estimator)입니다.
$V_n^2$의 기댓값은 모분산이랑 다르니까 표본의 크기가 커질수록 추정량이 모수에 가깝게 수렴하는 성질인 일치성 역시 만족하지 않을까요? 아닙니다. $V_n^2$은 일치성은 만족하는데 이를 증명하면 다음과 같습니다.
$V_n^2 = \frac{1}{n}\sum_i(X_i-\overline{X})^2 = \frac{1}{n}\sum{X_i^2}-\overline{X}^2$에서 다음 식이 만족한다. (참고로 SLLN은 큰수의 법칙으로 표본의 수가 크면 표본평균은 분포의 평균에 수렴함)
\begin{align*} &\text{by SLLN } \quad \frac{\sum_i X_i^2}{n} \xrightarrow[]{p} \mu^2 + \sigma^2 \tag{1} \\ &\text{by SLLN } \quad \overline{X} = \frac{\sum_i X_i}{n} \xrightarrow[]{p} \mu \tag{2} \\ &\text{by Continuous Mapping Theorem } & g(\overline{X}) = \overline{X}^2 \xrightarrow[]{p} g(\mu) = \mu^2 \tag{3} \end{align*}
따라서 $V_n^2 = \frac{\sum_i X_i^2}{n} - \overline{X}^2 \xrightarrow[]{p} (\mu^2+\sigma^2)-(\mu^2) = \sigma^2$로 $V_n^2$은 일치성을 만족합니다.
표본분산을 구할때 $(n-1)$대신 $n$으로 나누는 경우, 표본의 크기가 충분히 크다면 확률적으로 모분산 $\sigma^2$에 수렴합니다.
그러나, 표본의 크기에 상관없이 기댓값이 모분산과 같지 않으므로 불편성을 만족하지 않음을 보였습니다.
(물론 표본의 수가 굉장히 크면 $n$으로 나누나 $(n-1)$로 나누나 큰 차이는 없습니다.)
'Statistics' 카테고리의 다른 글
[Categorical Analysis] 1. Generalized Linear Model(일반화 선형 모델) (0) | 2023.12.12 |
---|---|
[회귀분석] 부분 F 검정 (Partial F Test) (0) | 2023.03.03 |
[회귀분석] 다중선형회귀(Multiple Linear Regression) (0) | 2023.03.03 |
[회귀분석] 단순선형회귀분석(Simple Linear Regression) (0) | 2023.03.03 |