베르누이 확률변수를 2개에서 100개까지 늘리는 이항분포(p=0.5) 애니메이션

이항분포(p=0.5) : 정해진 구간의 갈톤보드에서  분기수를 1에서 100으로 늘려가는 시뮬레이션

이항분포(분기수 n=40)에서 p를 p=0.1에서 0.1씩 늘려가면서 p=0.9까지 시뮬레이션

표본비율(Sample Proportion)

표본을 나타내면

 

${\textstyle \{x_{1},\ldots ,x_{n}\}}$

 

표본을 베르누이 시행의 결과라고 생각하면 다음과 같이 표현할 수 있습니다.

 

$$x \sim B(성공,실패;n,{\hat p})$$

 

여기서, 확률변수 $x$는 성공과 실패 두가지 값을 가짐

$n$은 표본크기

 

베르누이 시행의 확률분포를 나타내 보면 다음과 같습니다.

 

$$\mathrm{P}(x=성공)=\hat p$$

$$\mathrm{P}(x=실패)=1-\hat p$$

 

표본비율의 추정량(Estimator)은 다음과 같습니다.

 

$$\hat p= \dfrac {X}{n}$$

 

여기서,  $\hat p$는 표본비율

$X$는 베르누이 시행에서 성공횟수 ; 성공을 값으로 가지는 표본원소의 수

$n$은 표본크기

 

표본비율($\hat{p}$)은 모비율($p$)의 비편향, 효율, 일치 추정량입니다. 표본비율($\hat{p}$)은 모비율($p$) 추정시 좋은 추정량의 조건을 모두 가지고 있습니다. 그래서, 모비율의 점추정에는 표본비율을 사용합니다.  베르누이  시행에서의 성공확률을 표본비율이라고 할 수 있습니다. 표본비율 표집의 모평균(표본비율의 기대값)과 모분산은  다음과 같습니다.

 

$${\rm E}[\hat p]=p$$

 

$${\rm Var}[\hat p]={\rm Var}\left[\dfrac{X}{n}\right]=\dfrac{1}{n^2}{\rm Var}[X]=\dfrac{1}{n^2}np(1-p)=\dfrac{p(1-p)}{n}$$

 

여기서,  $X$는 베르누이 시행에서 성공횟수

$n$은 표본크기

 $\dfrac{X}{n}$은 표본비율($p$)

 

표본비율의 표준오차는 표본비율 표집의 모표준편차와 같으며 다음과 같이 정의합니다.

 

$${\rm SE}(\hat p)=\sigma_{\hat p}=\dfrac{\sigma_p}{\sqrt n}=\dfrac{\sqrt{p(1-p)}}{\sqrt n}=\sqrt{\dfrac{p(1-p)}{n}}$$

 

모비율($p$)은 일반적으로 모르는 경우가 많은 미지수이므로 $\hat{p}$로 대치하여 표준오차의 추정량을 구합니다. $\hat{p}$의 표준오차(Standard Error) 추정량은 다음과 같습니다.

 

$${\rm SE}(\hat p) \sim \sqrt{\dfrac{{\hat p}(1-{\hat p})}{n}}=\dfrac{1}{n}\sqrt{\dfrac{X(n-X)}{n}}$$

 

여기서,  $X$는 베르누이 시행에서 성공횟수

$n$은 표본크기

$n-X$는 베르누이 시행에서 실패횟수

 표본비율($p$)은 $\dfrac{X}{n}$

 

표준오차의 추정량은 t분포를 이용한 구간추정에 사용할 수 있습니다.

표본비율($\hat p$) 표집

표본비율($\hat p$) 표집의 확률밀도함수는 다음과 같습니다.

 

$${N}\left({p,\dfrac{{p}{(}{1}{-}{p}{)}}{n}}\right)$$

 

여기서,  $p$는 집단의 모비율

 

표본크기가 충분히 클 때 표본비율($\hat{p}$)의 확률밀도함수는 평균이 $\hat{p}$, 분산이 $\dfrac{{\hat p}(1-{\hat p})}{n}$인 정규분포에 근사합니다.

 

$${\hat p}\sim N\left({\hat p},\dfrac{{\hat p}(1-{\hat p})}{n}\right)$$

 

여기서,  $0 < {\hat p} <  1$

 

한편, 유한개($N$)의 원소를 가지는 유한집단에서 비복원추출하는 경우에는 표본비율($\hat{p}$) 표집의 모분산에 수정항인 $(N-n)/(N-1)$을 곱하여 보정합니다. 신뢰구간을 추정할 때 표본크기($n$)가 충분히 크다고 할 수 있는 기준은 다음과 같습니다.

 

${n}\hat{p}{>}{5}{,}\hspace{0.33em}{n}\left({{1}{-}\hat{p}}\right){>}{5}$

 

표본크기가 충분히 크면 표본비율 ($\hat{p}$)의 분포는 정규분포에 근사하게 된다는 사실로부터 모비율($p$)의 구간추정은 다음과 같이 할 수 있습니다.

 

모비율($p$)의 $100(1-\alpha)%$ 신뢰구간 – 크기가 큰 표본인 경우

 

$\left[{\hat{p}{-}{z}_{\mathit{\alpha}{/}{2}}\sqrt{\dfrac{\hat{p}\left({{1}{-}\hat{p}}\right)}{n}}{,}\hspace{0.5em}{\hat{p}{+}{z}_{\mathit{\alpha}{/}{2}}\sqrt{\dfrac{\hat{p}\left({{1}{-}\hat{p}}\right)}{n}}}}\right]$

 

표본크기가 작은 경우에는 비모수 검정을 행합니다.

표본비율로 이항분포와 정규분포의 관계  설명

이항분포로부터 표본비율의 분포를 설명할 수 있습니다. 표본크기, $n$을 시행횟수로 보고, 표본의 성공횟수를 확률변수, $X$라 한다면, 표본비율, $p$는 $\dfrac{X}{n}$으로  표현할 수 있습니다. 따라서, 표본비율의 분포는 표본크기($n$)이 커지는 과정이 이항분포에서 정규분포로 근사하는 과정으로 설명할수 있습니다. $X$는 이산형 확률변수이며 이산형 확률분포인 이항분포를 나타냅니다.

 

$$X \sim B\left(n, \hat p\right)$$

 

여기서, $X$는 표본내의 성공횟수

$n$은 표본크기

$\hat p$는 표본비율

 

표본비율 $\hat p$은 $n$이 무한대로 커지게 되면 연속형 확률변수가 되며 연속형 확률분포를 가집니다. 이 때 확률분포는 정규분포에 근사합니다.

 

$$\hat p \sim N\left(p, \dfrac{p(1-p)}{n}\right)$$

 

여기서, $0 < {\hat p} <  1$

$n$은 표본크기

$p$는 집단의 모비율

실습

아래의 구글시트 실습을 누르시면, 본인의 데이터링크 계정으로 구글시트를 복사하신 후, 실습하실 수 있습니다. 실습에 대한 설명은 AI 강의로 보실 수 있습니다.

구글시트 사용법 크롬 설치
구글시트 실습

<구글시트 함수>

=FACT(A3) : 숫자의 계승. A3에 있는 숫자의 계승을 계산함. 예를 들어, A3에 있는 숫자가 2이면, 2×1(2곱하기 1)의 값을 계산해서 표시함. A3에 있는 숫자가 3이면, 3×2×1(3곱하기2곱하기 1)의 값을 계산해서 표시함.

=POWER(C3,B3) : 거듭제곱. C3의 값을 B3의 값만큼 거듭제곱한 값을 계산해서 표시함.

=COUNTIF(J3:J10,L3) : 범위에서 조건에 맞는 개수. J3에서 J10에서 L3의 값을 가진 데이터의 개수를 표시함. $표시를 알파벳 앞뒤로 넣으면, 셀을 복사해도 그 값이 바뀌지 않음.

=COUNT(R3:S3) : 데이터개수, R3에서 S3에 있는 수치화된 데이터의 개수.

=AVERAGE(R3:S3) : 평균. R3에서 S3에 있는 데이터의 평균을 계산해서 표시함.

=VARP(R3:S3) : 모분산. R3에서 S3에 있는 데이터의 모분산을 계산해서 표시함. 편차제곱합을 데이터의 개수로 나눠서 구함.

=SUM(AF3:AF9) : 합계. AF3에서 AF9에 있는 데이터의 합계.

<실습강의 내용>

이항분포

이항분포에서 실현된 집단

집단으로부터 가능한 모든 표본

표본비율

표본비율의 표집