T80 – Data Science

T10

T20

T30

T40

T50

T60

T70

T80

T100

T330

T80-01 가설

가설 hypothesis

가설은 나타난 현상에 대한 과학적인 설명을 제안하는 것입니다. 가설이 과학적 가설이 되려면 과학적 방법을 통해 검증할 수 있어야 합니다. 과학자들은 일반적으로 알려진 과학적 이론으로 만족스럽게 설명될 수 없는 관측결과에 대해 과학적 가설을 수립합니다. “가설(hypothesis)”과 “이론(theory)”이라는 단어는 종종 같은 의미로 사용되지만 과학적 가설은 과학적 이론과 동일하지 않습니다. 작업 가설(working hypothesis)은 이어지는 연구를 위해 잠정적으로 승인된 가설입니다.

가설의 다른 의미는 형식 논리에서 명제의 선행 조건을 나타내는 데 사용됩니다. “P이면 Q”라는 명제에서 P는 가설(선행조건)을 나타냅니다. Q는 결과라고 할 수 있습니다.

Reference

Hypothesis – Wikipedia

T80-02 귀무가설(Null Hypothesis)

귀무가설(null hypothesis)

통계적 검정에서 귀무가설은 두 가지 현상을 측정한 결과의 차이 또는 두 집단의 연관성이 없는 것을 새로운 것이 없는 기본상태라고 설명합니다. 귀무가설을 검정(수용, 승인, 거절 또는 반증)하여 두 현상 사이의 관계가 있다고 믿을만한 근거로 결론을 내리는 것(예 : 내재된 치료의 효과가 측정되는 경우)은 현대 과학에서의 중요한 방법론입니다.특히 통계에서는 귀무가설을 기각할 경우 정확한 기준을 제시하게 됩니다. 귀무가설은 일반적으로 기각 증거가 나타낼 때까지는 사실인 것으로 가정합니다.

귀무가설은 종종 “H-naught”, “H-null”또는 “H-zero”(심지어 “H-oh”)로 발음되는 H₀으로 표시됩니다. 여기서 아래 첨자는 숫자 0입니다. 그래서 영가설이라고도 합니다.

로널드 피셔 (Ronald Fisher)의 유의미 검정(the significance testing)에서 관측값이 유의미하면 귀무가설은 기각되고 대립가설(alternative hypothesis)이 채택됩니다. 데이터가 귀무가설과 일치하면 귀무가설은 기각되지 않습니다. 어느 경우에도 귀무가설 또는 대립가설이 입증되지 않았다면, 귀무가설을 데이터로 검정하고 그 결과에 따라 결정합니다. 이는 피고가 정당한 의심 이상의 (통계적으로 중요한 정도로) 유죄가 입증될 때까지 (무효가 아닌) 무죄로 추정되는 무죄 추정의 원칙과 유사합니다.

Jerzy Neyman과 Egon Pearson의 가설검정에서는 귀무가설을 대립가설과 대조하고 두 가설을 특정 오류율과 함께 데이터를 기반으로 구별합니다. 이들은 연구의 결론을 공식화하는데 사용됩니다.

통계적 검정은 모형선택(model selection) 기술을 사용하여 각 가설에 대응하는 가장 적절한 통계모형을 선택함으로써 귀무가설 없이도 수행 될 수 있습니다. 가장 일반적인 선택기법은 Akaike information criterion 또는 Bayes factor를 기반으로 합니다.

Reference

Null hypothesis – Wikipedia

T80-03 통계적 가설(Statistical Hypothesis)

통계적 가설(statistical hypothesis)

통계적 가설(statistical hypothesis)은 확률변수(random variables)를 통해 모형화된 통계모델의 검정을 가능하게 하는 가설입니다. 가설검정은 통계적 검정의 한 방법입니다. 일반적으로 통계에서 얻은 두개의 데이터집합(data set)을 비교하거나 표본추출로 얻은 데이터집합과 통계모델에서 생성된 이상화된 데이터 집합과 비교합니다.

두 데이터집합 사이의 관계에 대한 가설을 제안하고 이 가설을 두 데이더집합과 관계없는 이상화된 귀무가설에 대한 대립가설과 비교합니다. 데이터집합간의 관계가 판단확률(threshold probability) – 유의수준(significance level)에 따라 귀무가설이 기각되면 데이터집합간의 차이가 통계적으로 유의미(statistically significant)하다고 간주됩니다. 가설검정은 연구의 결과를 미리 지정된 유의수준에 따라 귀무가설을 기각하도록 결정할 때 사용됩니다.

통계적 가설(statistical hypothesis)은 확증적 데이터분석(confirmatory data analysis)이라고도 합니다.

귀무가설과 대립가설(alternative hypothesis)을 구별은 두가지 유형의 오류를 살펴보면 알 수 있습니다. 귀무가설이 잘못 기각되면 첫번째 유형의 오류가 발생하게 됩니다. 두번째 유형의 오류는 귀무가설이 잘못 기각되지 않을 때에 오류가 발생하게 됩니다. (1종, 2종 오류)

통계적 유의에 기초한 가설 검정은 신뢰구간(confidence intervals)(정확히 말하면 신뢰집합(confidence sets))을 표현하는 또 다른 방법입니다. 다시 말해, 유의성에 기반한 모든 가설검정은 신뢰구간을 통해서 행할 수 있고, 모든 신뢰구간은 유의성에 기반한 가설검정을 통해 얻을 수 있습니다. 유의성기반 가설검정은 통계적 가설검정에서 가장 보편적으로 쓰이는 방법입니다. 통계적 가설검정을 위한 또 다른 방법은 각 후보 가설에 대해 하나씩 통계모델을 제시한 다음, 모형 선택 기법을 사용하여 가장 적절한 모델을 선택하는 방법이 있습니다. 가장 일반적인 선택 기법은Akaike information criterion 또는 Bayes factor를 기반으로 합니다.

Reference

Statistical hypothesis testing – Wikipedia