통계의 목적
결국 저희가 통계를 통해 얻고자 하는 것은 다음과 같은 것들일 것입니다.
"표본들이 이랬으니 모집단의 평균은 얼마일거야!"
"쟤가 모집단의 평균이 A일거라 주장했는데 표본을 보니 A일수가 없겠는걸?"
첫번째 경우는 모수에 대한 "추정"을 하는 것이고
두번째 경우는 가설에 대한 "검정"을 하는 것입니다.
어떤 상황이든, 저희는 모집단을 전수조사 할 수 없어서 표본들을 조사합니다.
조사한 표본들을 통해 통계를 내고, 이를 통해 모집단을 추정, 혹은 검정을 진행합니다.
앞으로 배울 내용은 표본들을 추출하여 통계를 내었을 때 그려지는 분포와 이들의 속성을 배울 것입니다.
이전에 배운 중심극한정리는 표본의 수가 커지면 표본평균은 정규분포에 수렴한다는 내용이었고,
M.L.E 는 관찰된 확률변수들, 즉 조사된 표본들을 통해 모수가 어떠한 값을 가질 확률이 가장 높은지에 대한 내용이었습니다.
중심극한정리에 의해 표본평균의 평균은 모평균에 수렴했고,
M.L.E에 의해 표본들이 추출되었을 때, 해당 표본들의 평균이 모평균일 가능성이 가장 컸습니다.
위에서 표본평균이라는 단어가 정말 많이 등장했습니다.
표본평균은 결국 표본들을 추출하여 얻을 수 있는 가장 대표적인 통계량으로, 이를 통해 모평균과 모분산을 추정하는 데 사용될 수 있습니다.
앞으로 진행될 내용들에 앞서, 결국 우리의 최종 목적은 표본을 통한 모수의 추정 혹은, 검정을 하는 것이라는 것을 한번 상기하고 진행하겠습니다.
모수와 통계량
모수(parameter) - 통계적 추론에서 분석하고자 하는 최종 목표인 모집단(population)의 특성
통계량(statistic) - 모집단에서 추출한 표본(random sample)을 이용해 만든 것으로 표본들의 함수
통계적 검정을 위해 특수한 통계량을 사용하기도 하고, 모수를 추정하기 위해 통계량을 구해보기도 합니다.
전자의 경우 검정통계량(test statistic), 후자의 경우 추정량(estimator)이라고 합니다.
이전 글에서 다루었던 최대우도법(Maximun Likehood Estimator)이 바로 모수에 대한 통계량, 즉 추정량을 구한 것입니다.
통계량은 꼭 표본평균, 표본분산과 같이 모수를 추정하는 것들만이 아닙니다.
표본들로만 이루어진 함수는 전부 다 통계량입니다.
다만 이중에서 표본평균과 표본분산이 매우 자주 사용되는 통계량입니다.
통계량의 정의
관찰 가능한 n개의 확률 변수 X1, ..., Xn이 있다고 가정하였을 때,
r을 n개의 실제 변수에 대한 임의의 실함수(real-valued function : 함수값이 실수라는 뜻)라 하면,
이때 다음과 같이 정의된 확률변수 T를 통계량(statistic)이라 합니다.
$$T = r(X_1, ..., X_n)$$
어려운 단어라 생각하지 마시고, 우리가 모집단을 조사하기 위해 표본들을 조사하여 통계치를 낸 그 모든 것들이 통계량입니다.
예를 들어
표본들을 조사하니 평균이 A더라 -> 통계량
표본들을 조사하니 분산이 B더라 -> 통계량
각 표본들에 10을 더하고 2로 나누고 뭘 하고 뭘 하니 뭐더라 -> 통계량
표본분포
표본분포는 쉽게 말하면 통계량에 대한 분포입니다.
우리가 모집단에 대해서 n개의 표본들을 뽑아 조사할 때 대부분의 경우 해당 조사을 단 한번만 진행하지는 않습니다.
여러번 같은 수의 표본들을 뽑아 조사한 후, 각각 조사에 대한 통계치들을 사용하여, 해당 통계치들의 평균을 구하고 이를 통해 모집단을 추측합니다.
조금 더 쉽게 이해하기 위해, 전국 초등학생들의 IQ의 평균을 구해야 한다는 상황에 직면했다고 생각해보겠습니다.
맨 처음 100명의 학생들을 뽑아 평균을 내었더니 130이었습니다.
그렇다면 저희는 아 전국 초등학생들의 IQ의 평균은 130일거야! 라고 판단하나요?
아닙니다. 이러한 표본들을 뽑아 조사하는 과정을 여러번 거친 후, 해당 표본들의 평균을 통해 전국 초등학생들의 IQ에 대한 평균을 낼 것입니다.
쉽게 말해 100명의 학생들을 조사하는 작업을 50번 진행했더니, 해당 표본들의 평균의 평균이 100이었다고 가정하겠습니다.
이제 우리는 전국 초등학생들의 IQ는 평균적으로 100일거야 라는 판단을 내릴 수 있습니다.
위 과정에서 표본들의 평균의 평균, 즉 표본평균의 평균을 사용했습니다.
진행한 50번의 조사에서 표본평균들의 평균을 그래프 상에 표시할 수 있을 것입니다.
이것이 바로 표본평균의 분포, 즉 통계량에 대한 분포의 한 예시가 되는 것입니다.
표본분포의 정의
확률 변수 X = (X1, ..., Xn)이 값을 모르는 모수 θ를 가진 분포에서 임의로 추출된 n개의 표본들이라 가정하고,
T를 X와 모수 θ에 대한 함수라 하겠습니다. 즉 T(X1, X2, ..., Xn, θ) 입니다.
θ가 주어졌을 때, T의 분포를 T에 대한 표본 분포(Sampling Distribution)라 합니다.
표본 분포라는 이름은 T가 무작위 표본(random sample)에 의존하고 , 따라서 T의 분포 역시 표본으로부터 유도된다는 사실로부터 비롯된 이름입니다.
그리고 (T에 대한) 표본 분포로부터 계산된 T의 평균을 다음과 같이 나타내겠습니다.
$$E_\theta(T)$$
종종 확률변수 T는 모수 θ에 대해 의존적이지 않습니다. (이 경우 T는 통계량(statistic)이라 불립니다)
특히 T가 모수 θ에 대한 추정량(estimator)인 경우에도 T는 X에 대한 함수이므로 통계량(statistic)입니다.
따라서, 원칙적으로는 각각의 모수에 대한 추정량(estimator)의 표본 분포를 유도하는 것이 가능합니다.
표본 평균의 분포
아까 학생들의 IQ 예시에서 살펴보았듯이, 표본평균의 분포는 표본 분포의 대표적인 예시입니다.
저희는 지금까지 표본평균의 여러가지 속성들과 중심극한정리(Central Limit Theorem, CLT)에 대해 알아보았습니다.
즉 표본 평균의 분포에 대한 여러 속성들을 알아본 것이며, 한번 정리하고 넘어가겠습니다.
$$1. \;\;E(\overline{X_n}) = \mu, \;\;\; V(\overline{X_n}) = \frac{\sigma^{2}}{n} $$
2. 모집단의 분포와 상관없이, n이 충분히 크다면 다음이 근사적으로 성립합니다. (중심극한정리, CLT)
$$\;\; \overline{X_n} \; \sim \; N(\;\mu,\; \frac{\sigma^{2}}{n}\;) $$
이제부터 정규분포의 무작위 표본(random sample)에 대해 표본 분산의 분포와, 표본 평균 및 표본 분산의 다양한 함수에 대한 분포를 도출해 보겠습니다.
'🖥 Computer Science > 확률과 통계' 카테고리의 다른 글
[확률과 통계] - (20) 표본 평균과 표본 분산의 결합분포 (2) | 2022.05.24 |
---|---|
[확률과 통계] - (19) 카이제곱 분포 (Chi-Square Distribution) (3) | 2022.05.23 |
[확률과 통계] - (17) 최대가능도 방법(최대우도법) (Maximum Likelihood Estimator, MLE) (0) | 2022.05.16 |
[확률과 통계] - (16) Prior and Posterior Distributions (사전 분포와 사후 분포) (0) | 2022.05.16 |
[확률과 통계] - (15) 추정(Estimation) (모수[Parameter] 추청) (0) | 2022.05.16 |