T50 – Data Science

T10

T20

T30

T40

T50

T60

T70

T80

T100

T330

T50-01 신뢰구간(Confidence Interval)

신뢰구간(confidence interval)

통계에서 신뢰구간(Confidence interval)은 추정의 한 유형입니다. 미지의 집단의 매개변수(모수, parameter)의 추정값(추정치, estimate)을 나타낼 떄 사용합니다. 신뢰구간은 당연히 실제값을 포함할 수 있습니다.

특정 구간의 신뢰도를 수량화한 신뢰수준이 있습니다. 신뢰수준은 미지의 집단의 매개변수가 포함되는 신뢰구간의 비율을 나타냅니다. 다시 말해, 신뢰구간이 무한대의 독립된 표본(무한대의 표집)으로 만들어진다면 매개변수의 실제값을 포함하는 신뢰구간의 비율은 신뢰수준과 같습니다. 신뢰구간은 미지의 모집단의 매개변수의 실제값의 잠재적인 구간입니다. 하지만, 특정 표본에서 계산된 구간은 매개 변수의 실제값을 항상 포함하고 있지는 않습니다. 관측된 데이터가 실제 모집단의 무작위 표본에서 나왔다는 가정하에 데이터에서 얻은 신뢰구간 또한 무작위입니다.

신뢰수준은 데이터를 보기 전에 미리 지정됩니다. 일반적으로는 95%의 신뢰 수준이 사용되지만, 90%나 99%같은 신뢰 수준도 사용되기도 합니다. 신뢰구간의 크기에 영향을 주는 요인은 표본크기, 신뢰수준, 표본의 변동성 등이 있습니다. 더 큰 크기의 표본은 다른 요인은 변하지 않을 때 더 나은 추정치를 생성합니다. 더 높은 신뢰수준은 더 넓은 신뢰구간을 생성합니다.

Reference

Confidence interval – Wikipedia

T50-02 p값 또는 확률값(p-Value or probability Value)

$p$값($p$-value, probability value)

통계의 가설검정에서 $p$값(확률값)은 주어진 통계모델에 대하여 귀무가설이 참일 때 비교된 두 집단 간의 표본평균 차이의 절대값이 실제 관측값보다 크거나 같을 확률입니다. $p$값은 물리학, 경제학, 금융학, 인문학, 심리학, 생물학, 법학 및 사회과학과 같은 많은 분야의 연구에서 일반적으로 사용됩니다.

Reference

p-value – Wikipedia

T50-03 여론조사(Opinion Poll)

여론조사(opinion poll)

일반적으로 조사(poll) 또는 설문조사(survey)라고 하는 여론조사(opinion poll)는 특정 인간 표본의 여론에 대한 연구 조사입니다. 여론조사는 일반적으로 일련의 질문을 실시한 다음 일정 비율 내 또는 신뢰구간(confidence intervals) 사이에서 일반성을 추론함으로써 모집단의 의견을 발표하기 위해 고안되었습니다.

Reference

Opinion poll – Wikipedia

T50-04 유의수준(Significant Level)

유의수준(significant level)

유의수준(significance level)은 통계적 가설검정에서 사용되는 기준값입니다. 일반적으로 유의 수준은 $\alpha$로 표시하고 95%의 신뢰도를 기준으로 한다면 (1−0.95)인 0.05값이 유의수준 값이 됩니다. 가설검정의 절차에서 유의수준 값과 유의확률 값을 비교하여 통계적 유의성을 검정하게 됩니다.

Reference

significance level – Wikipedia

T50-05 통계적 추정(Statistical Inference)

통계적 추정(statistical inference)

통계적 추정은 데이터분석을 통해 기본 확률분포의 속성을 추론하는 과정입니다.예를 들자면 추론적인 통계분석은 가설을 검정하고 추정치를 도출하여 집단의 특성을 추론하도록 합니다. 관측되는 데이터 집합은 더 큰 모집단으로부터 표본추출된 것으로 가정합니다.

추측통계(추론통계)는 설명통계(기술통계)와 대조됩니다. 설명통계는 전적으로 관측된 데이터의 속성과 관련되어 있으며 데이터가 더 많은 모집단에서 나왔다는 가정에는 근거하지 않습니다.

Reference

Statistical inference – Wikipedia

T50-06 통계적 유의성(Statistical Significance)

통계적 유의성(statistical significance)

통계적 가설검정(statistical hypothesis testing)에서 귀무가설(null hypothesis)을 고려할 때 가설이 매우 드물지만 발생하게 되면 결과는 통계적 유의성(statistical significance)를 가지게 됩니다. 더 정확히 말하자면 연구과정에서 지정한 $\alpha$로 표시되는 유의수준(significance level)은 귀무가설이 사실이라면 귀무가설을 기각할 수 있을 확률이며, 결과의 $p$값은 귀무가설이 사실일때 최소 극단적인 결과를 얻을 확률입니다. $p < \alpha$일 때 이 연구의 기준인 $\alpha$에 따라 결과가 유의미하다 할 수 있습니다. 연구의 유의 수준은 데이터 선택 전에 정해지고, 보통 연구 분야에 따라 5% 이하로도 설정합니다.

모집단에서 표본추출과 관련된 모든 실험 또는 관찰에서 표본추출 오류(sampling error)로 인해 관측된 결과가 있을 수도 있습니다. 하지만 여기서 관측된 결과의 $p$값이 유의수준보다 작으면 조사자는 그 결과가 모든 집단의 특성을 대표한다 할 수 있고, 그에 따라 귀무가설을 기각할 수 있습니다.

통계적 중요성을 검정하는 이 기법은 20세기 초에 개발되었습니다. 여기서 유의성(significance)이라는 용어는 중요성을 의미하지 않고, 통계적 유의성(statistical significance)이라는 용어는 이론적, 실제적 중요성과 같지 않습니다. 반면, Clinical significance이라는 용어는 임상(치료효과) 실질적 중요성을 나타냅니다.

Reference

Statistical significance – Wikipedia

T50-07 Z검정(Z-test)

$Z$검정($Z$-test)

Z검정(Z-test)은 귀무가설(null hypothesis)하에서 검정통계량(test statistic)의 분포를 정규분포로 근사할 수 있는 통계검정입니다. 중심극한정리 (central limit theorem)로 인해 많은 검정 통계는 대개 큰 샘플에 대해 대략적으로 정규분포를 보입니다. 각 유의수준에 대해 Z검정에는 단일 임계값(a single critical value) (예 : 양측 5 %의 경우 1.96)이 있으므로 각 표본크기에 대해 별도의 임계값을 갖는 t검정(Student’s t-test)보다 편리합니다. 따라서 표본크기가 크거나 모집단 분산이 알려지면 많은 통계 검정을 근사 Z검정으로 편리하게 수행할 수 있습니다. 하지만, 모집단 분산이 알려지지 않았기 때문에 (따라서 표본 자체에서 추정해야 함) 표본크기가 크지 않으면 (n <30), t검정이 더 적절할 수 있습니다.

$T$가 귀무가설 하에서 대략 정상적으로 분포된 통계치인 경우, $Z$검정을 수행하는 다음 단계는 귀무가설 하에서 $T$의 기대값(expected value)인 $\Theta$를 추정 한 다음 $T$의 표준편차(standard deviation)의 추정치(estimate) $S$를 얻는 것입니다. 그 후 표준편차(the standard score) $Z = (T – \dfrac{\Theta}{S}$를 계산하여 단측 및 양측 $P$값(one-tailed and two-tailed p-values)을 Φ (-Z) (상측 검정의 경우), Φ (Z )(하측 검정)와 2Φ (- | Z |) (양측 검정)의 경우로 계산할 수 있습니다. 여기서 Φ는 표준정규누적분포함수(cumulative distribution function)입니다.

Reference

Z-test – Wikipedia

T50-08 검정통계량(Test Statistic)

검정통계량(test statistic)

검정통계량(test statistic)은 가설검정에 사용되는 통계량(statistic)입니다. 검정통계량은 가설검증을 할 때 필요한 하나의 데이터값이며 이는 데이터세트를 요약하여 만듭니다. 따라서 가설검정은 전형적으로 검정통계량이란 용어로 규정됩니다. 일반적으로, 검정통계량은 대립가설(alternative hypothesis)이 제시되었다면 대립가설에서 null을 분리하고 분리한 식에서 통계량을 정량화하는 방식으로 정해집니다, 그리고 제시된 대립가설이 없고 귀무가설이 있는 경우는 검정통계량이 귀무가설의 특성을 나타내게 됩니다.

검정통계량의 중요한 특성은 귀무가설 하의 표본분포가 계산 가능해야만 $p$값(p-values)을 계산할 수 있다는 것입니다. 검정통계량은 설명통계(descriptive statistic)와 동일한 역할을 합니다. 많은 통계량들이 검정통계나 설명통계에 사용됩니다. 그러나 검정통계량은 통계적 검정에 사용하기 위해 특별히 고안되었지만 설명통계는 쉽게 해석할 수 있다는 장점이 있습니다. 표본범위와 같은 설명통계는 표본분포를 결정하기 어렵기 때문에 좋은 검정통계량을 만들지 않습니다. 널리 사용되는 두가지 검정통계량은 $t$ 통계량(t-statistic)과 $F$검정(F-test)입니다.

Reference

Test statistic – Wikipedia