1. 애니메이션

1.1. Q-Q plot

2. 설명

2.1. Q-Q plot 적용 예

2.2. Q-Q plot

2.3. 설명강의

3. 실습

3.1. 구글시트

3.2. 구글시트 함수

3.3. 실습강의

4. 용어와 수식

4.1. 용어

 

1. 애니메이션

Q-Q plot

2. 설명

2.1. Q-Q plot 적용 예

추론통계에서 가설의 검정방법을 채택함에 있어 대부분, 집단이 정규분포를 가진다는 가정이 선행됩니다. 이 때 표본데이터의 정규성검정을 행하게 되는 데,  데이터시각화 방법 중에서 Q-Q plot을 가장 널리 사용하고 있습니다. 

2.2. Q-Q plot

Q-Q plot(Quantile-Quantile plot)은 “정규분포 분위수 대조도”라고도 합니다.  분위수는 같은 데이터개수를 가지도록 값의 범위를 나눈 것으로 대표적인  분위수(quantile)로는 4간격으로 나눈 사분위수(quartile)와 100간격으로 나눈 백분위수(percentile)가 있습니다. Q-Q plot에서는 표본데이터의 개수(표본크기)에 맞추어 분위수를 정하게 됩니다.

 

예를 들어 표준정규분포와 표본데이터의 분포를 비교하는 경우에는 표준정규분포의 분위수를 X축에 놓고 표본데이터의 분위수를 Y축에 놓습니다. 만일 같은 분위의 표본데이터의 분위수와 표준정규분포의 분위수가 같다면  점그래프에서 점들은 직선($y=x$)상에 위치하게 됩니다. 직선을 이루는 표본데이터의 구간은 정규분포를 따른다고 할 수 있습니다. 

 

Q-Q plot은 여러 통계페키지(예를 들면 Goolge sheet 등)의 Q-Q plot함수를 사용하여 쉽게 그릴 수 있습니다.

2.3. 설명강의

– 준비 중

3. 실습

3.1. 구글시트

회원의 데이터링크 계정으로 구글시트가 복사됩니다.

QQ Plot(큐큐 플롯) : 구글시트 실습
QQ Plot(큐큐 플롯) : 구글시트 실습

3.2. 구글시트 함수

=SORT(B3:B22,1,TRUE) : 데이터정렬. B3와 B22 범위에 있는 데이터를 1(첫)번째 열을 기준으로 오름차순(TRUE)으로 정렬. TRUE 대신 FALSE를 넣으면 내림차순으로 정렬.

=COUNT(E3:E22) : 데이터개수. E3와 E22 범위에 있는 숫자형 데이터들의 개수.

=NORM.S.INV(F3) : 표준정규분포의 확률변수. F3를 누적확률밀도로 가지는 표준정규분포 상에서의 확률변수(표준정규분포 가로축의 값). 

=NORMDIST(L3,0,1,FALSE) : 정규분포 확률밀도. 평균 0, 표준편차 1인 정규분포, 즉 표준정규분포 상에서 L3 확률변수의 확률밀도를 계산함. FALSE 대신 TRUE를 입력하면, 누적확률밀도를 계산함.

3.3. 실습강의

– 데이터

– 데이터정렬

– 백분위수

– Z Score

– Q-Q plot

– 실습 안내

4. 용어와 수식

4.1 용어

Q-Q plot (Quantile-Quantile plot, 정규분포 분위수 대조도)

통계에서 Q–Q plot(정규분포 분위수 대대조도)은 확률분포의 속성을 표현하는 점그래프입니다. 두 확률분포의 연관된 위치를  2차원 좌표계에 표시하여 두 확률분포를 비교하는 데이터시각화입니다. 산점도에 나타나는 점(x, y)은 첫 번째 분포(X 좌표)의 동일한 분위수에 대해 표시된 두 번째 분포(Y 좌표)의 분위수입니다. 이 점들은 분위수 간격을  매개변수로 가지는 함수곡선을 정의합니다.

 

비교되는 두 분포가 유사하면 Q–Q plot의 점은 대략 동일선($y = x$)에 놓입니다. 분포가 선형인 상관을 가지면 Q–Q plot 의 점은 대부분 선상에 있지만 반드시 직선($y = x$)상에 있을 필요는 없습니다. Q–Q plot은 확률분포의 모수를 추정하는 시각화방법으로도 사용할 수 있습니다.

 

Q–Q plot은 분포의 모양을 비교할 때 사용하며 분포의 위치와 범위 및 왜도와 같은 속성이 두 분포에서 어떻게 유사하거나 다른지 시각화합니다. Q–Q plot은 데이터세트의 분포와 이론적 분포를 비교할 때도 사용할 수 있습니다. 두 표본 데이터를 비교하기 위해 Q–Q plot을 사용하는 것은 확률분포를 비교하기 위한 기본적인 비모수적 접근 방식으로 볼 수 있습니다. Q–Q plot는 일반적으로 표본의 히스토그램을 비교하는 것보다 더 자세히 분석할 수 있지만 덜 쓰이고 있습니다. Q–Q plot은 일반적으로 데이터 세트를 이론적인 모델과 비교하는 데 사용됩니다. 이를 통해 설명통계 외에 데이터시각화로 적합도 평가를 할 수 있습니다. Q–Q plot은 두 개의 이론적 분포를 서로 비교하는 데에도 사용됩니다. Q–Q plot는 분포를 비교하므로 산점도에서와 같이 대응된 값을 관찰하거나 대응되는 두 집단의 크기가 동일할 필요가 없습니다.

 

“Probability plot”이라는 용어는  Q–Q plot이나 덜 일반적으로 사용되는 P–P plot을 나타냅니다. 확률-확률 상관계수 plot(PPCC plot)은 관측된 데이터와 피팅된 분포의 일치를 측정하고 때때로 데이터에 분포를 pitting하는 수단으로 사용되는 Q-Q plot의 개념에서 나온 값입니다.

 

Reference

Q-Q plot – Wikipedia