T100 – Data Science

T10

T20

T30

T40

T50

T60

T70

T80

T100

T330

T100-01 다중확률변수(Multivariate random variable or Random vector)

다중확률변수(multivariate random variable or random vector)

확률이론 및 통계에서 다중확률변수(multivariate random variable) 또는 확률벡터(random vector)는 값이 아직 발생하지 않았거나 해당 값에 대한 지식이 불완전하기 때문에 값이 알려지지 않은 변수 목록입니다. 무작위 벡터의 개별 변수는 모두 단일 수학 시스템의 일부이기 때문에 함께 그룹화됩니다. 이는 종종 개별 통계 단위의 여러 속성을 나타냅니다. 예를 들어, 특정 사람이 특정 나이, 신장 및 체중을 지니고 있는 반면, 그룹 내에서 불특정 한 사람의 이러한 특징을 나타내는 것은 무작위 벡터입니다. 일반적으로 임의의 벡터의 각 요소는 실수입니다.

확률벡터는 다양한 유형의 임의 변수의 기본적인 표현으로 자주 사용됩니다. 예를 들면 임의 행렬, 임의 트리, 임의 순서, 확률 과정 등이 있습니다. 좀 더 공식적으로, 다중확률변수는 열벡터(column vector) $\mathbf {X} =(X_{1},…,X_{n})^T$ (또는 행 벡터인 이산행렬)에서 요소가 스칼라값을 지니는 같은 확률공간$(\Omega ,{\mathcal F}, P)$을 지니는 무작위 수이고 $\Omega$는 표본공간(sample space)이며 ${\mathcal {F}}$는 모든 사건의 집합(sigma-algebra)이고, $P$는 각 사건의 확률을 나타내는 함수 또는 확률척도(probability measure)입니다.

Reference

Multivariate random variable – Wikipedia

T100-02 다변수분석(Multivariate analysis)

다변수분석(multivariate analysis)

다변수분석(MVA)은 한 번에 하나 이상의 통계 결과 변수를 관측하고 분석하는 다변수통계(multivariate statistics)의 통계 원리를 기반으로 합니다. 설계 및 분석에서 이 기법은 관심있는 응답에 대한 모든 변수의 영향을 고려하는 다 차원 구조의 무역에 대한 연구를 수행하는 데 사용됩니다. 다변수분석의 용도는 다음과 같습니다.

– 기능 설계 (=기능 기반 설계)

– 어떤 변수가 독립 변수로 취급될 수 있는 역설계

– 대안분석(Analysis of Alternatives) (AoA), 고객 요구 충족을 위한 개념 선택

– 변화하는 시나리오와 관련된 개념 분석

– 중요한 design-drivers 및 계층적 상관관계 식별

다변수분석은 계층적 복합시스템에 대한 변수의 영향을 계산하기 위해 물리 기반 분석을 포함하려는 시도로 복잡해질 수 있습니다. 가끔 다변수분석을 사용하려는 연구는 대상 문제의 다차원성에 의해 지연됩니다. 이러한 우려는 물리 모델 기반 코드의 매우 정확한 근사모델 인 대리모델(surrogate models)의 사용을 통해 종종 완화됩니다. surrogate models은 방정식의 형태를 취하므로 매우 신속하게 수행할 수 있습니다. 이는 대규모 MVA 연구의 원동력이 됩니다. 물리 기반 코드로는 설계공간에서의 몬테카를로 시뮬레이션(Monte Carlo simulation)이 어렵지만 대개 반응 표면(response-surface) 방정식의 형태를 띠는 대리모델을 수행할 때에는 쉬워집니다.

Reference

Multivariate analysis – Wikipedia

T100-03 중선형회귀

중선형회귀(multiple linear regression)

단순선형회귀는 스칼라인 요인변수(독립변수) $X$와 역시 스칼라인 하나의 반응변수(종속변수), $Y$의 가장 간단한 상관과 회귀를 나타냅니다. 다중(벡터) 형태의 독립변수($\bf{X}$로 표시)로의 확장은 다중선형회귀(multiple linear regression), 또는 다중변수선형회귀(multivariable linear regression)라고 부릅니다.

대부분의 실제 회귀모델에는 여러 요인변수(예측변수, predictor variables)가 포함되며 선형회귀에 대한 기본 설명이 다중선형회귀모델로 표현됩니다. 하지만 이 경우에도 반응변수(응답변수, response variable)인 $Y$는 여전히 벡터량이 아닌 스칼라량입니다.

Reference

Multiple linear regression – Wikiversity

T100-04 기울기(Skewness)

기울기(skewness)

확률이론(probability theory)과 통계에서 기울기(skewness)는 평균에 대한 확률변수(random variable) 분포의 비대칭성의 척도입니다. 기울기값은 양수 또는 음수이거나 정의되지 않을 수도 있습니다.

유니모달 분포(a unimodal distribution)의 경우 음수기울기는 일반적으로 꼬리가 분포의 왼쪽에 있음을 나타내고 양수기울기는 꼬리가 오른쪽에 있음을 나타냅니다. 하나의 꼬리가 길지만 다른 꼬리가 뚱뚱한 경우, 기울기는 간단한 규칙을 따르지 않습니다. 기울기가 0 인 경우 확률분포(probability distribution)가 평균의 양측에 있는 꼬리가 전반적으로 균형을 이룬다는 것을 의미합니다. 이것은 대칭분포의 경우지만 한 꼬리가 길고 얇은 비대칭분포와 다른 한편은 짧지만 뚱뚱한 경우에도 적용할 수 있습니다.

Reference

Skewness – Wikipedia