T70-01 상관(Dependence)

상관(dependence)

통계에서 상관(dependence or association)은 두 확률변수(random variables or bivariate data)의 인과에는 무관한 단지 통계적 관계일 뿐입니다. 가장 넓은 의미에서 상관관계(correlation)는 통계적 연관성이지만 일반적으로는 한 쌍의 두 확률변수가 선형적으로 관련되는 정도를 나타냅니다. 상관에 부가되는 인과의 예는 부모와 자녀의 육체적인 체격 사이의 상관관계와 한정적으로 공급되는 제품에 대한 수요와 그 가격 간의 상관관계가 있습니다. 상관관계는 실제로 활용될 수 있는 예측가능한 관계(causal relationship)를 나타내기 때문에 유용합니다. 예를 들어, 발전소는 전기수요와 날씨 간의 상관관계를 기반으로 온화한 날에 적은 전력을 생산할 수 있습니다. 왜냐하면 극단적인 날씨에 사람들이 난방이나 냉방에 더 많은 전기를 사용하기 때문입니다.

일반적으로, 상관관계의 존재는 인과 관계의 존재를 추론하기에 충분하지 않습니다 (즉, 상관관계는 인과 관계를 의미하지 않습니다).

공식적으로, 확률변수가 확률적 독립(probabilistic independence)의 수학적 성질을 만족시키지 않는다면 종속변수입니다.

비공식적인 의미에서 상관관계는 종속성과 동의어입니다. 그러나 기술적인 의미에서 사용될 때, 상관은 평균값들 사이의 관계 중 어떤 몇 가지  특정 유형을 의미합니다. 상관의 정도를 나타내는  $\rho$ 또는 $r$로 표시되는 몇몇 상관계수가 있습니다. 이들 중 가장 널리 사용되는 것은 피어슨 상관계수(Pearson correlation coefficient)로 두 변수 사이의 선형관계를 잘 나타내 줍니다. 물론 한 변수가 다른 변수와 비선형관계일 때도 사용할 수 있습니다. 다른 상관계수는 Pearson 상관관계보다 강하게(robust) 개발되었기 떄문에 비선형 상관관계에서 더 민감합니다. 상호정보(Mutual information)는 두 변수 사이의 상관을 측정하는 데에도 적용될 수 있습니다.

 

Reference

Correlation and dependence – Wikipedia


T70-02 상관계수(Correlation coefficient)

상관계수(correlation coefficient)

상관계수는 두 변수 간의 관계를 나타내는 수치입니다. 여기서 두 변수는 표본 데이터세트의 2개 열의 확률변수, 아니면 분포를 알고 있는 2개의 확률변수입니다.

상관계수는 -1에서 1 사이의 값들을 가지는데, 여기서 ± 1은 가장 강한 상관이 있음을 나타내고 0은 상관관계가 없음을 의미합니다. 분석의 수단으로서, 상관계수는 특이성에 의해 왜곡되는 유형의 경향 및 두 변수간 인과 관계를 잘못 추론할 가능성이 있습니다.

 

Reference

Correlation coefficient – Wikipedia

T70-03 공분산(Covariance)

공분산(covariance)

확률이론 및 통계에서 공분산(covariance)은 두 확률변수의 연결된 가변성(the joint variability)을 측정한 것입니다. 한 변수의 큰 값이 다른 변수의 큰 값과 주로 일치하고 작은 값에서도 동일한 경향이 유지되는 경우 (즉, 두 변수가 유사한 행동을 보이는 경향이 있는 경우), 공분산은 양수입니다. 반대의 경우에, 하나의 변수의 큰 값이 다른 변수의 더 작은 값에 주로 대응할 때 (즉, 변수가 반대의 행동을 나타내는 경향이있는 경우), 공분산은 음의 값을 가집니다. 따라서 공분산의 부호는 변수간의 선형 관계의 경향을 보여줍니다.

공분산의 크기는 정규화되지 않았기 때문에 해석하기가 쉽지 않으므로 변수의 크기에 따라 달라집니다. 그러나 공분산을 정규화한 상관계수는 크기에 따라 선형 상관관계의 강도를 보여줍니다. 아래의 둘은 반드시 구분되어야 합니다.

(1) 두 확률변수의 모공분산(the covariance of two random variables). 여기서 모공분산은 모집단 매개변수(population parameter)이고 모집단 매개변수는 연관 확률분포(joint probability distribution)의 특성으로 볼 수 있습니다.

(2) 표본공분산(the sample covariance). 여기서 표본공분산은 표본을 표현할 뿐만 아니라 모집단 매개변수의 추정값으로 제공됩니다.

 

Reference

Covariance – Wikipedia


T70-04 회귀분석(Regression analysis)

회귀분석(regression analysis)

통계에서 회귀분석(regression analysis)은 변수간의 관계를 추정하기 위한 통계적 과정입니다. 회귀분석은 종속변수(independent variables)와 하나 이상의 독립변수(dependent variable)  사이의 관계를 살펴보고자 할 때 여러 변수를 모델링하고 분석하는 다양한 기법을 가지고 있습니다. 구체적으로 회귀분석은 독립변수 중 하나가 변할 때 종속변수 (기준 변수)의 값이 변하는 반면 다른 독립변수는 고정되어 있는지를 이해하는 데 도움이 됩니다. 일반적으로, 회귀분석은 독립변수가 고정될 때 종속변수의 평균값, 또는 종속변수의 조건부기대치(conditional expectation)를 추정합니다.

일반적이지는 않지만 관심은 사분위수(quantile)나 위치매개변수(location parameter)에 있습니다. 여기서 위치매개변수는 독립변수가 주어진 종속변수의 조건부 분포를 보여줍니다.

모든 경우에 회귀함수(regression function)라 불리는 독립변수의 함수를 추정해야 합니다. 회귀분석에서, 확률분포(probability distribution)를 사용하여 회귀함수를 예측하면서 종속변수의 변화를 특정하는 것도 중요합니다. 확실한 접근법은 필수조건분석(NCA, Necessary Condition Analysis)입니다. 이 분석은 주어진 독립변수(중심선이 아닌 천장선)에서 종속변수의 평균보다는 최대값을 추정합니다. 이는 주어진 종속변수에서 어떤 독립변수값이 중분하지 않더라도 필요한 것이냐를 정하기 위함입니다.

회귀분석은 예측(prediction) 및 예견(forecasting)에 널리 사용되며, 그 사용은 기계학습(machine learning) 분야와 실질적으로 중복됩니다. 회귀분석은 독립변수 중 어떤 것이 종속변수와 관련되어 있는지 이해하고 어떤 관계가 있는지 탐구하기 위해 사용됩니다.

제한적인 환경에서는 회귀분석을 사용하여 독립변수와 종속변수 간의 인과 관계(causal relationships)를 추론 할 수 있습니다. 그러나 이것은 환상이나 잘못된 관계로 나타날 수 있으므로 주의가 필요합니다.

회귀분석을 수행하는 많은 방법이 개발되었습니다. 선형회귀(linear regression) 및  최소제곱(ordinary least squares)와 같은 친숙한 방법은 매개변수적(parametric)입니다. 그래서 회귀함수는 유한개의 모르는 매개변수들로 정해집니다. 여기서 매개변수들은 데이터로부터 추정됩니다.

비모수회귀(Nonparametric regression)는 회귀함수를 무한차원(infinite-dimensional) 함수로 규정하는 기술을 나타냅니다.

회귀분석 방법의 실행은 실제로 데이터생성과정(data generating process)과 사용되는 회귀분석 방법이 어떻게 관련이 있느냐 입니다. 데이터생성과정의 실제 형태는 일반적으로 알려져 있지 않기 때문에 회귀분석은 이 과정에 대해 어느 정도 가정을 수행합니다. 이러한 가정은 충분한 양의 데이터를 사용할 수 있는 경우는 검정할 수 있습니다.

예측을 위한 회귀모델은 가정이 적당히 위배되는 경우에는 최적으로 수행 할 수는 없지만 그래도 유용합니다. 그러나 많은 응용에서, 특히 작은 영향(effects)이나 관측데이터(observational data)에 근거한 인과관계(causality)의 문제로 회귀분석법은 오도된 결과를 줄 수 있습니다.

좁은 의미에서, 회귀는 연속 종속변수(반응변수)의 추정에 특별히 적합할 지도 모릅니다. 회귀는 분류에 사용되는 분류(classification)에 사용되는 불연속 반응변수(종속변수)에는 반대입니다. 연속 종속변수의 경우는 관련 문제와 구별하기 위해 보다 특별히 행렬 회귀(metric regression)라고 할 수 있습니다.

 

Reference

Regression analysis – Wikipedia


T70-05 결정계수(Coefficient of determination)

결정계수(coefficient of determination)

변동계수(Coefficient of variation), 상관계수(Coefficient of correlation)와 혼동하기 쉽습니다. 통계에서, 결정계수(coefficient of determination: R2 ,r2로 표현되며 R squared로 읽음) 는 독립변수들로부터 예측이 가능한 종속변수가 가지는 분산의 확률(예측이 가능하지 않은 종속변수와 상대비율)입니다.

통계적 모형(statistical models)에서 주로 사용되는 통계로써, 관련 정보를 통한 가설의 증명이나 미래의 일을 예상하는 데에 주로 사용됩니다. 결정계수는 통계적 모델로 표현된 결과의 전체 변동 비율에 따라 모델이 관찰된 결과를 얼마나 잘 반영했는지에 대한 수치를 제공합니다.

결정계수, $R^2$는 여러 정의가 존재합니다. 한 종류로는 $R^2$ 대신에 쓰여지는 $r^2$로 단순선형회귀(simple linear regression)가 있습니다. 절편(intercept)이 포함된 경우에는 관측된 결과와 예측값 사이의 표본상관계수($r$, correlation coefficient)의 제곱입니다. 회귀분석기(regressors)가 포함된 경우, R2는 다중상관계수(coefficient of multiple correlation)의 제곱입니다. 두 경우 모두, 결정계수는  0에서 1 사이입니다.

정의에 따라 $r^2$이 음수가 될 수 있습니다. 이는 해당 결과에 대한 예측이 모형(model)의 적합한 방식으로 도출되지 않았을 때에 발생할 수 있습니다. 또는 모형의 적합한 방식이 사용되더라도 여전히 음수일 수도 있습니다. 예를 들어, 절편을 포함하지 않고 선형회귀를 수행하거나, 데이터를 위해 비선형 함수를 사용할 경우에 음수가 될 수 있습니다. 음수가 되었다는 것은 특정 기준에 따라 데이터의 평균이 적합 함수값보다 더 적합하다는 뜻입니다. 결정계수의 가장 일반적인 정의는 “내쉬-서트클리프  모형 효율 계수(Nash–Sutcliffe model efficiency coefficient) “로도 알려져 있고, 이 표기법은 제곱기호가 있어서 혼동이 되기는 하지만 음의 값을 가지는 -∞에서 1까지의 범위를 가지는 적합도 지표를 나타내고 많은 분야에서 선호됩니다.

시뮬레이션값($Y_{pred}$)과 측정값($Y_{obs}$)의 적합도(the goodness-of-fit)를 평가할 때 선형회귀의 선형계수($R^2$)를 기반으로 하는 것은 적절하지 않습니다(i.e., $Y_{obs}= mY_{pred} + b$). 선형계수는 시뮬레이션값과 측정값의 선형 상관정도를 정량화하는 반면에, 적합도 평가의 경우에는 하나의 특정 선형 상관관계($Y_{obs}= Y_{pred} + b$ :  the 1:1 line)만 고려해야 합니다.

 

Reference

Coefficient of determination – Wikipedia