0. 개요
안녕하세요. 이번 포스팅에서는 순서통계량(Order Statistics)에 대해 알아보겠습니다.
우선 순서통계량은 임의표본의 관측값이 있을 때, 최소값부터 최대값까지 크기 순서대로 나열한 통계량을 뜻하는데요.
그래서 k번째 순서통계량이라고하면 k번째로 작은 관측값을 의미하게 되며 표기로는 $X_{(k)}$나 $Y_k$를 사용하는데 포스팅에서는 $Y_k$로 사용하도록 하겠습니다. 참고로 이러한 순서통계량은 비모수 추론, 통계(Non-Parametric Inference & Statistics)에 많이 사용되고 있습니다.
- kth Order Statistics($Y_k)$ : $X_1, X_2, \cdots, X_n$에서 k번째로 작은 관측값을 의미
- Minimum($Y_1$) : 관측값 중 제일 작은 값으로 $Min(X_1, X_2, \cdots, X_n)$과 동일
- Maximum($Y_n$) : 관측값 중 제일 큰 값으로 $Max(X_1, X_2, \cdots, X_n)$과 동일
간단하게 예를 들어보면 길거리에서 5명의 키를 조사해 170, 165, 178, 182, 157의 데이터를 얻었다고 생각해봅시다.
그러면 키라는 확률변수의 관측치는 순서대로 $x_1=170, x_2=165, x_3=178, x_4=182, x_5=157$이라고 생각할 수 있습니다.
순서통계량을 구하기 위해서 샘플을 순서대로 나열하면 157, 165, 170, 178, 182 라는 값을 구할 수 있어서 순서통계량은 $y_1 = 157, y_2=165, y_3=170, y_4=178, y_5=182$와 같이 구할 수 있게 됩니다.
1. 순서통계량의 분포
순서통계량도 통계량이다보니 고유의 분포를 가지고 있는데요. 만약 PDF가 $f_X(x)$인 Random Sample의 관측값 $X_1, X_2, \cdots, X_n$의 순서통계량을 $Y_1 < Y_2 < \cdots < Y_n$라고 표시할때, k번째 순서통계량의 분포를 나타내는 PDF(확률밀도함수)와 CDF(누적확률함수)는 다음과 같습니다.
- PDF : $f_{Y_r}(y) = \frac{n!}{(r-1)!*1!*(n-r)!}[F_X(y)]^{r-1}*f_x(y)*[1-F_X(y)]^{n-r}$
- CDF : $F_{Y_r}(y) = Pr[Y_r < y] = \sum_{k=r}^{n}\begin{pmatrix} n\\k \end{pmatrix}[F_X(y)]^k[1-F_X(y)]^{n-k}$
조금 복잡하게 생기긴 했지만 아래와 같이 유도할 수 있으며 특히 $Y_r < y$라는 뜻은 적어도 $X_1, X_2, \cdots, X_n$ 중에서 $r$개는 y보다 작아야한다는 것을 생각하고 접근하면 좋습니다.
위 공식 유도하는 것이 어렵다면 다음 예시를 통해 순서통계량의 분포를 어떻게 구하는지 파악하면 좋을 듯 합니다.
2. 순서통계량의 특징
아래 증명과 같이 순서통계량 $Y_1 < Y_2 < \cdots <Y_n$에 대해 기댓값 $E[F_X(Y_r)] = \frac{r}{n+1}$을 만족합니다.
따라서 분위수 정의에 따라 $\pi_p$는 $Pr[X < \pi_p] = p$를 만족하므로 $p=\frac{r}{n+1}$, 즉 $r=p(n+1)$인 $Y_r$은 분위수 $\pi_p$의 추정량이 됩니다.
- [특징] $E[F_X(Y_r)] = \frac{r}{n+1}$
- [특징] $\widehat{\pi_p} = Y_r$ 단, $r=p(n+1)$
3. Quantile-Quantile plot (QQ-Plot)
만약 관측값 $x_1, x_2, \cdots, x_n$이 특정분포를 잘 따른다고 가정합시다.
r번째 순서통계량 $Y_r$은 제 $100r/(n+1)$ 샘플 백분위수이기 때문에 순서통계량 $y_r$과 특정분포의 분위수 $\pi_p$를 점으로 찍은 $(y_r, \pi_p)$은 직선 위에 놓여있을 것 입니다. 반대로 만약 직선 위에 놓여 있지 않는다면 관측값은 사전에 특정한 분포를 잘 따르지 않는다고 볼 수 있겠죠.
이때 $(y_r, \pi_p)$를 Quantile-Quantile Plot이라고 하면 주로 QQplot이라고 많이 알려져 있습니다.
또한, 많이 상황에서 정규성을 만족하는지 판단하려고 많이 사용하나 다른 분포에서도 사용할 수 있습니다.
R에서는 분위수를 찾을때 quantile, qqplot을 그릴때는 qqplot 함수를 사용할 수 있습니다.
obs <- rnorm(n=1000, mean=5, sd=2)
yr <- quantile(obs, probs = seq(0.01, 0.99, by=0.01))
pi <- qnorm(p=seq(0.01, 0.99, by=0.01), mean=0, sd=1)
plot(yr, pi)
abline(a=0, b=1, col="red")
'Statistics > Mathmetical Statistics' 카테고리의 다른 글
[확률과 통계적 추론] 6-4. ML Estimation in Regression (0) | 2024.02.15 |
---|---|
[확률과 통계적 추론] 6-3. Maximum likelihood Estimation (최대가능도추정) (0) | 2024.02.13 |
[확률과 통계적 추론] 6-1. 기술통계량과 탐색적 데이터 분석 (2) | 2024.02.07 |
[확률과 통계적 추론] 5-8. Chebyshev's Inequality (체비쇼프 부등식) (0) | 2024.01.21 |
[확률과 통계적 추론] 5-7. 연속성 수정 (Continuity Correction) (0) | 2024.01.20 |