안녕하세요. 이번 포스팅에서는 가설검정(Hypothesis Test)에 대해 알아보겠습니다.
가설검정은 쉽게 생각하면 가설이 참인지 거짓인지 판별하는 통계적 절차로, 일반적으로 참이거나 사실이라고 생각되는 명제를 귀무가설(Null Hypothesis)로 $H_0$라고 표기합니다. 이와 반대로 증명하고자 하는 가설을 대립가설(Alternative Hypothesis)라고 하며 $H_1$이라고 표기합니다. 공장에서 물건을 생산하는데 새로운 기술을 도입했다고 생각해봅시다. 기존 생산량이 100이였을때, 새로운 기술을 도입하고 생산량이 120이 되었다고 생각한 기술자가 통계적 가설검정을 진행한다고 했을 때, 귀무가설은 "생산량이 100이다"로 놓을 수 있으며 대립가설로는 "생산량이 120이다." 또는 "생산량이 100보다 크다"라고 놓을 수 있습니다.
이와 같이 귀무가설과 대립가설을 설정했다면, 표본 $x_1, x_2, \cdots, x_n$을 가지고 귀무가설이 참인지 거짓인지 판별하는 기각역(Critical Region) C를 설정해서, 표본이 기각역에 포함되면 귀무가설을 기각(Reject)하고, 표본이 기각역에 포함되지 않으면 귀무가설을 채택(Accept)하도록 합니다. 이때 기각역에 속하는 표본공간(Sample Space)을 검정통계량이라 불리는 통계량의 값에 의해서도 나눌 수 있습니다.
앞 예시에서 기각역을 $\overline{x} > 110$와 같이 설정하면 표본평균 $\overline{X}$를 검정통계량이라고 합니다.
이렇게 귀무가설 및 대립가설과 기각역을 선택하면 크게 제 1종 오류와 제 2종 오류 이렇게 두 가지 오류가 존재합니다.
- 제 1종 오류(Type I Error)는, 귀무가설이 사실은 참인데 귀무가설을 기각하는 오류입니다. (또는 대립가설을 채택하게 되는 오류)
- 제 1종 오류(Type I Error)의 확률을 유의수준(Significance Level)이라고 하며 $\alpha$로 표기합니다.
- $\alpha = Pr[(X_1, X_2, \cdots, X_n) \in C | H_0]$
- 제 2종 오류(Type II Error)는, 대립가설이 사실은 참인데 귀무가설을 채택하는 오류입니다. (또는 대립가설을 기각하게 되는 오류)
- 제 2종 오류(Type II Error)의 확률은 $\beta$로 표시하며 $\beta = Pr[(X_1, X_2, \cdots, X_n) \notin C | H_1]$
앞 예시를 다시 떠올려 봅시다. 제 1종 오류같은 경우에는 사실은 생산량이 100인데 새로운 기술로 인해 생산량이 120이라고 채택하게 된다면 새로운 기술이 효과가 있다고 판단해서 실제로는 효과가 없는데 도입하는 손해를 받을 수 있습니다. 반대로 제 2종 오류로는 실제로는 새로운 기술이 효과가 있어서 생산량이 120인데, 생산량이 100이라고 판단하여 새로운 기술을 도입하지 않을 수 있습니다.
Type I Error와 Type II Error가 작을수록 좋지만 일반적으로 기각역 설정에 따라 Trade-Off 관계에 있으므로 한쪽이 작아질수록 한쪽을 커지는 경향이 있습니다. 따라서 표본의 수를 줄일 수 없다면 상황에 맞게 오류를 설정해야 합니다.
마지막으로 유의확률(P-value)에 대해 알아보겠습니다. 유의확률은 귀무가설($H_0$)하에서 검정통계량이 관측치보다 더 높은(대립가설의 방향에 맞게) 값을 가질 확률을 의미합니다. 귀무가설 하에서 검정통계량은 확률분포를 가지고 있는데, 샘플로 관측된 통계량의 값이 어느 위치에 있는지 알려주는 값입니다. 따라서 유의확률이 낮을수록 귀무가설하에서 일어나기 힘든 사건이 일어났다는 의미이므로 귀무가설이 사실이 아니라는 뜻으로 해석할 수 있습니다.
- 유의확률(P-value)가 유의수준($\alpha$, Significance Level)보다 작으면 귀무가설을 기각합니다.
'Statistics > Mathmetical Statistics' 카테고리의 다른 글
[확률과 통계적 추론] 8-3. 비율에 대한 가설검정 (0) | 2024.03.25 |
---|---|
[확률과 통계적 추론] 8-2. 평균에 대한 가설 검정 (0) | 2024.03.21 |
[확률과 통계적 추론] 7-6. 회귀분석 - 신뢰구간과 예측구간 (0) | 2024.03.18 |
[확률과 통계적 추론] 7-5. Distribution-Free CI for percentile (0) | 2024.03.15 |
[확률과 통계적 추론] 7-4. Sample Size (0) | 2024.03.14 |