안녕하세요. 이번 포스팅에서는 조건부 분포에 대해서 정리하려고 합니다.
처음 통계학을 배우면서 힘들었던 점 중 하나가 여러가지 분포를 외워야했고 pmf/pdf, cdf, Joint pmf/pdf, Marginal pmf/pdf와 같이 너무너무 많은 개념을 있어서 한번에 이해하기가 힘들더라고요.
학점 자체는 잘 나왔지만 복습을 하지 않고 시간이 지나면서 까먹게 되었는데, 고학년뿐만 아니라 졸업 후 모델링을 배우면서 여러번 나오다보니 한번 더 공부가 필요하다는게 뼈저리게 느꼈습니다.
각설하고 조건부 분포는 조건부 확률(Conditional Probability)과 유사한 부분이 있습니다. 조건부 확률은 두 가지 이상의 사건에 대해서 한 사건이 일어났을 때, 다른 사건이 발생할 확률과 같이 특정 이벤트가 발생했을 때 다른 이벤트의 확률을 얘기하죠.
예시로 나이(Age)와 소득(Salary)에 대해서 생각해 봅시다. 최근 통계청 자료에 따르면 소득이 1억 이상일 확률이 5%정도라고 하는데요.
그렇다면 이를 기호로 $Pr(Salary > 100,000\$) = 0.05$로 표현할 수 있겠죠?
하지만 소득이 1억 이상일 확률은 나이에 따라 크게 달라질 것입니다. 가장 극단적으로 0~10세 아동이 1억 이상의 소득이 있을 확률은 5%보다 훨씬 작은 0에 수렴할 것 입니다(있다면 존경합니다!). 반면에 40~50세인 사람이 1억 이상의 소득이 있을 확률은 5%보다 높겠죠.
이처럼 나이라는 특정한 조건이 주어진다면 "소득이 1억 이상이다"라는 사건은 더 이상 일정한 확률을 가지지 않을 것입니다. 이를 조건부 확률이라고 하며 아래 수식처럼 표현할 수 있겠습니다.
$$Pr(Salary > 100,000$ | Age) $$
조건부 분포 역시 확률변수 2개에 대해서 하나의 변수가 다른 변수의 값에 따라 어떤 분포를 가지는지에 대해서 표현하는 방식으로 생각하면 좋겠습니다. $Pr(Salary | Age)$라는 조건부 분포가 주어진다면 이전의 예시와 유사하게 "나이" 확률변수의 값에 따라 "소득"이라는 확률분포가 어떻게 변하는지 표현하는 방식이라고 생각하면 좋을 듯 합니다.
이상 조건부 분포의 기호와 의미는 아래와 같습니다.
- 기호 : $f(X|Y) = \frac{f(x,y)}{f_Y(y)}$
- 의미 : Y의 값에 따른 X의 조건부 분포
- 특징 : $\sum_{x}^{}f(x|y) = 1 $ (for fixed y)
또한, 아래와 같이 조건부 평균($u_{x|y}$)과 조건부 분산($\sigma^2_{x|y}$)에 대해 정의할 수 있습니다.
마지막으로 조건부 분포와 관련된 계산에 대한 예시는 아래와 같습니다.
'Statistics > Mathmetical Statistics' 카테고리의 다른 글
[확률과 통계적 추론] 4-4. 연속형 이변량 분포 (0) | 2024.01.04 |
---|---|
[확률과 통계적 추론] 4-3.1 조건부분포와 상관계수의 관계 (2) | 2024.01.03 |
[확률과 통계적 추론] 4-2. Covariance & Correlation (0) | 2023.07.30 |
[확률과 통계적 추론] 4-1. Bivariate Distribution (이변량분포) (0) | 2023.07.30 |
[확률과 통계적 추론] 3-5. 혼합타입분포(Mixed Type Distribution) (0) | 2023.05.21 |