[ICDA] Introduction - Variable & Distribution
·
Statistics/Categorical DA
안녕하세요. 오랜만의 포스팅입니다.이번에는 범주형 자료 분석이라는 주제를 가지고 한동안 올려볼 생각입니다.주요 참고 도서는 학부시절 배운 Agresti 교수님의 Introduction to categorical data analysis을 위주로 작성합니다.다만, 교재에서 빠진 증명이나 예시 같은 부분도 다수 포함할 예정이지만 수리통계학에 대해 익숙하다고 가정하고 있습니다. 1. 범주형 변수 (Categorical Variable) 앞으로 알아볼 범주형 변수(Categorical Variable)은 정치성향(진보, 보수, 중도)나 예 / 아니오와 같은 응답여부, A / B / AB / O 혈액형와 같이 범주의 집합으로 구성된 측정 척도를 가집니다. 특히 응답 여부(예/아니오)나 바이러스 검사 결과(음..
불편성(Unbiasedness)와 일치성(Consistency)
·
Statistics
0. 서두추정량에 대해 공부하다 보면, 불편성과 일치성이라는 두 가지 용어가 자주 등장합니다.최근 사회조사분석사에 나오는 통계 파트를 가르치면서 책에서 아래와 같은 불편성과 편의성에 대한 설명을 접했는데, 두 개념의 차이를 구별하는 것이 쉽지 않겠다는 생각이 들었습니다.불편성(Unbiasedness): 추정량의 기댓값이 모수값과 같아지는 성질일치성(Consistency): 표본의 크기가 커질수록 추정량이 모수값에 점점 가까워지는 성질그래서 이번 포스팅에서는 불편성과 일치성의 개념과 예시를 통한 차이에 대해 살펴보도록 하겠습니다.  1. 불편성과 일치성의 정의 우선, 통계학에서 정의하는 불편성은 다음과 같습니다.만약 $E(\hat{\theta_n}) = \theta$라면 모수 $\theta$의 점추정량 $..
표본분산(Sample Variance)의 특징
·
Statistics/Mathmetical Statistics
표본분산과 모분산은 통계학에서 자주 나오는 핵심 개념으로, 표본 데이터로부터 모수를 추정하는 데 사용됩니다.이번 포스팅에서는 표본분산이 모분산의 불편추정량임을 보이고, 표본분산과 표준편차가 모분산 및 모표준편차로 확률수렴함을 증명하도록 하겠습니다. 1. $E[S_n^2] = \sigma^2$표본분산에 정의에 따라 $S_n^2 = \frac{1}{n-1}\sum_i(X_i-\overline{X})^2 =\frac{1}{n-1}\sum_i(X_i-\mu+\mu-\overline{X})^2$이므로 표본평균의 기댓값은 아래와 같습니다. \begin{align*} E[S_n^2] &= \frac{1}{n-1}E[\sum_i(X_i-\mu+\mu-\overline{X})^2] \\ &=\frac{1}{n-1}E[\..
모비율 신뢰구간 with Chebyshev & Hoeffding Inequality
·
Statistics/Mathmetical Statistics
두 가지 방법으로 모비율의 신뢰구간을 구해봅시다이 글에서는 Chebyshev 부등식과 Hoeffding 부등식을 사용하여 모비율의 신뢰구간을 구하는 방법을 설명하고, 두 방법의 결과를 비교해보겠습니다.특히 이항분포의 경우를 중심으로 구체적인 예시와 시뮬레이션 결과를 통해 차이를 확인해 보겠습니다. 1. Chebyshev 부등식 $\varepsilon > 0$이고 확률변수 X의 평균과 분산이 존재할 때, 다음을 만족한다.$P\big(|X-E[X]| \geq\varepsilon\big) \leq \frac{var(X)}{t^2}$$X_1, X_2, \ldots, X_n \sim Bernoulli(p)$일때, 표본평균 $\overline{X}=\frac{\sum_i X_i}{n}$은 모비율 $p$의 최대 우도..
주축량(Pivotal Quantity)과 지수분포에서 모수의 신뢰구간 - 시뮬레이션
·
Statistics/Mathmetical Statistics
지난 포스팅 "주축량과 지수분포에서 모수의 신뢰구간-이론"(https://moogie.tistory.com/150)에서$X_1, X_2, \ldots, X_n \sim Exp(\theta)$인 경우 MLE와 주축량을 이용해 구한 $\theta$의 신뢰구간은 다음과 같았습니다. 1. MLE를 이용한 경우$$[\hat{\theta}-z_{\alpha/2}\frac{\hat{\theta}}{\sqrt{n}}, \hat{\theta}+z_{\alpha/2}\frac{\hat{\theta}}{\sqrt{n}}]$$2. Pivotal Quantity를 이용한 경우$$[\frac{2\sum X_i}{\chi^2_{\alpha/2}(2n)}, \frac{2\sum X_i}{\chi^2_{1-\alpha/2}(2n)}]..
주축량(Pivotal Quantity)과 지수분포에서 모수의 신뢰구간 - 이론
·
Statistics/Mathmetical Statistics
이번 포스팅에서는 주축량과 이를 이용한 신뢰구간 계산하는 방법에 대해 알아보겠습니다. 1. 주축량(Pivotal Quantity)이란?주축량은 함수 Q에 대해 다음과 같은 성질을 만족하는 경우 주축량(Pivotal Quantity)이라고 합니다.정의$Q(X_1, X_2, \ldots, X_n ; \theta)$의 분포가 모수 $\theta$에 의존하지 않는다면, 이를 주축량이라고 합니다 2. 정규분포에서의 예시예전에 평균에 관한 구간 추정을 다룬 적이 있었는데요. (https://moogie.tistory.com/132)만약 $X_1, X_2, \ldots, X_n \sim N(\mu, \sigma^2)$인 random sample에 대해 표본평균 $\overline{X}=\frac{\sum_i X_i}..
[확률과 통계적 추론] 8-4. 비모수적 검정 (Non-parametric Test)
·
Statistics/Mathmetical Statistics
안녕하세요. 이번 포스팅에서는 비모수적인 방법을 이용한 검정에 대해 알아보겠습니다. 포스팅 8-2과 8-3에서는 정규분포 및 이항분포를 가정해서 검정통계량을 정의하고 검정할 수 있었습니다. 이번 비모수적 검정에서는 분포에 대해 거의 가정하지 않으므로 정규성을 만족하는지 확인할 필요가 없습니다. 1. 부호검정(Sign Test) $m$을 중위수(Median)이라고 할때, 귀무가설 $H_0 : m = m_0$, 대립가설 $H_1 : m \neq m_0$에 대한 가설검정을 수행할 수 있는데요. 이는 $m_0$가 실제 중위수라고 하면 주어진 데이터 $X_1, X_2, \cdots, X_n$에 대해 $X_1 - m, X_2 - m, \cdots, X_n - m$에 대해 절반은 음수를 가지고 절반은 양수를 가질 것..
[확률과 통계적 추론] 8-3. 비율에 대한 가설검정
·
Statistics/Mathmetical Statistics
안녕하세요. 이번 포스팅에서는 비율에 대한 가설검정에 대해 알아보도록 하겠습니다. 비율에 대한 구간추정 포스팅(https://moogie.tistory.com/134)을 참고해주시면 이해하는데 도움이 됩니다. 1. 단일 비율에 대한 추정 (Z score Test) $X \sim B(n, p)$이고 귀무가설 $H_0 : p = p_0$ 일때, 대립가설에 따른 기각역은 아래와 같다. (단, $\hat{p} = \frac{X}{n}$) $H_1 : p > p_0$ 일때, 기각역 C = {$z | z = \frac{\hat{p}-p_0}{\sqrt{p_0q_0/n}} \geq z_{\alpha}$} $H_1 : p < p_0$ 일때, 기각역 C = {$z | z = \frac{\hat{p}-p_0}{\sqrt{..