ggplot2에서 geom_rect의 투명도(alpha)가 적용되지 않는 이유와 해결법
·
Data Science/Visualization
데이터 시각화에서는 특정 부분을 강조하기 위해 사각형, 라벨, 선 등을 추가하는 경우가 많습니다. 특히 geom_rect()는 그래프 위에 사각형을 그릴 때 유용하게 사용되는데요.  그런데 alpha 값을 설정해도 투명도가 적용되지 않는 경우가 있습니다. 왜 이런 일이 발생하는지, 어떻게 해결할 수 있을지에 대해 알아보겠습니다.  geom_rect의 alpha(투명도) 값이 적용안됨먼저, 베이스라인 코드는 다음과 같습니다.mpg |> ggplot(aes(x=displ, y=hwy)) + geom_point() + geom_text_repel(data = potential_outliers, aes(label=model)) + geom_point(data = pot..
불편성(Unbiasedness)와 일치성(Consistency)
·
Statistics
0. 서두추정량에 대해 공부하다 보면, 불편성과 일치성이라는 두 가지 용어가 자주 등장합니다.최근 사회조사분석사에 나오는 통계 파트를 가르치면서 책에서 아래와 같은 불편성과 편의성에 대한 설명을 접했는데, 두 개념의 차이를 구별하는 것이 쉽지 않겠다는 생각이 들었습니다.불편성(Unbiasedness): 추정량의 기댓값이 모수값과 같아지는 성질일치성(Consistency): 표본의 크기가 커질수록 추정량이 모수값에 점점 가까워지는 성질그래서 이번 포스팅에서는 불편성과 일치성의 개념과 예시를 통한 차이에 대해 살펴보도록 하겠습니다.  1. 불편성과 일치성의 정의 우선, 통계학에서 정의하는 불편성은 다음과 같습니다.만약 $E(\hat{\theta_n}) = \theta$라면 모수 $\theta$의 점추정량 $..
표본분산(Sample Variance)의 특징
·
Statistics/Mathmetical Statistics
표본분산과 모분산은 통계학에서 자주 나오는 핵심 개념으로, 표본 데이터로부터 모수를 추정하는 데 사용됩니다.이번 포스팅에서는 표본분산이 모분산의 불편추정량임을 보이고, 표본분산과 표준편차가 모분산 및 모표준편차로 확률수렴함을 증명하도록 하겠습니다. 1. $E[S_n^2] = \sigma^2$표본분산에 정의에 따라 $S_n^2 = \frac{1}{n-1}\sum_i(X_i-\overline{X})^2 =\frac{1}{n-1}\sum_i(X_i-\mu+\mu-\overline{X})^2$이므로 표본평균의 기댓값은 아래와 같습니다. \begin{align*} E[S_n^2] &= \frac{1}{n-1}E[\sum_i(X_i-\mu+\mu-\overline{X})^2] \\ &=\frac{1}{n-1}E[\..
모비율 신뢰구간 with Chebyshev & Hoeffding Inequality
·
Statistics/Mathmetical Statistics
두 가지 방법으로 모비율의 신뢰구간을 구해봅시다이 글에서는 Chebyshev 부등식과 Hoeffding 부등식을 사용하여 모비율의 신뢰구간을 구하는 방법을 설명하고, 두 방법의 결과를 비교해보겠습니다.특히 이항분포의 경우를 중심으로 구체적인 예시와 시뮬레이션 결과를 통해 차이를 확인해 보겠습니다. 1. Chebyshev 부등식 $\varepsilon > 0$이고 확률변수 X의 평균과 분산이 존재할 때, 다음을 만족한다.$P\big(|X-E[X]| \geq\varepsilon\big) \leq \frac{var(X)}{t^2}$$X_1, X_2, \ldots, X_n \sim Bernoulli(p)$일때, 표본평균 $\overline{X}=\frac{\sum_i X_i}{n}$은 모비율 $p$의 최대 우도..
주축량(Pivotal Quantity)과 지수분포에서 모수의 신뢰구간 - 시뮬레이션
·
Statistics/Mathmetical Statistics
지난 포스팅 "주축량과 지수분포에서 모수의 신뢰구간-이론"(https://moogie.tistory.com/150)에서$X_1, X_2, \ldots, X_n \sim Exp(\theta)$인 경우 MLE와 주축량을 이용해 구한 $\theta$의 신뢰구간은 다음과 같았습니다. 1. MLE를 이용한 경우$$[\hat{\theta}-z_{\alpha/2}\frac{\hat{\theta}}{\sqrt{n}}, \hat{\theta}+z_{\alpha/2}\frac{\hat{\theta}}{\sqrt{n}}]$$2. Pivotal Quantity를 이용한 경우$$[\frac{2\sum X_i}{\chi^2_{\alpha/2}(2n)}, \frac{2\sum X_i}{\chi^2_{1-\alpha/2}(2n)}]..
주축량(Pivotal Quantity)과 지수분포에서 모수의 신뢰구간 - 이론
·
Statistics/Mathmetical Statistics
이번 포스팅에서는 주축량과 이를 이용한 신뢰구간 계산하는 방법에 대해 알아보겠습니다. 1. 주축량(Pivotal Quantity)이란?주축량은 함수 Q에 대해 다음과 같은 성질을 만족하는 경우 주축량(Pivotal Quantity)이라고 합니다.정의$Q(X_1, X_2, \ldots, X_n ; \theta)$의 분포가 모수 $\theta$에 의존하지 않는다면, 이를 주축량이라고 합니다 2. 정규분포에서의 예시예전에 평균에 관한 구간 추정을 다룬 적이 있었는데요. (https://moogie.tistory.com/132)만약 $X_1, X_2, \ldots, X_n \sim N(\mu, \sigma^2)$인 random sample에 대해 표본평균 $\overline{X}=\frac{\sum_i X_i}..
[R] rlang으로 하는 동적 변수 참조와 환경(Environment)
·
Data Science/Manipulation
다른 블로그에도 관련된 내용이 없거나 적고 스스로 rlang과 관련된 내용 정리가 필요한 것 같아 포스팅을 올리게 되었습니다. mpg라는 데이터프레임에서 "model"이라는 열을 기준으로 그룹화를 한다면 아래와 같이 작성할 수 있습니다.mpg |> group_by(model) 그렇다면 아래 코드와 같이 그룹화 변수를 따로 선언하고, 그 객체를 전달하면 어떨까요?group_vars group_by(group_vars)오류가 발생하네요? 도대체 무슨 차이가 있어서 이런 차이를 만드는 것일까요?group_by 함수는 인자로 받는 값을 변수명이라고 생각하고, 데이터 프레임에서 인자로 받은 값과 받은 열을 찾습니다.그래서 첫번째 코드에서는 mpg에 존재하는 "model"이라는 열을 기준으로 그룹화를 진행하는 것..
[R] 사용자 정의 함수 관련 잡기술
·
Data Science/Manipulation
1. match.call간혹 함수를 짜다보면 입력한 인수를 사용했는지 확인이 필요 할 때가 있습니다.예를 들어, 데이터 프레임에서 특정 열의 Five-Number Summary($\min$, $q_1$, $m$, $q_3$, $\max$)를 해당 데이터 프레임의 이름과 함께 출력하는 함수를 아래와 같이 작성해보았습니다.fivenum_col  결과는 에러가 발생하는데요!왜냐하면, df를 출력하면 iris의 데이터프레임을 출력하기 때문에 문자열 출력 함수와 호환되지 않기 때문입니다.이런 에러를 방지하기 위해서 match.call 함수를 사용하는데 인자와 입력된 글자를 호출하는 함수입니다.fivenum_col   2. 익명함수(anonymous functions)파이썬의 람다 함수처럼 익명 함수를 지원합니다...