중심극한정리
중심극한정리는 "많은 수의 표본이 있으면 그 표본의 합이나 평균이 정규분포를 따른다." 라는 말인데요. 이렇게 적어놓으면 어렵죠. 정육면체의 주사위를 열번정도 굴리면 어떤 숫자는 적게나오고 어떤 숫자는 더 많이나오고 어떤숫자는 아예 안나올 수도 있죠? 그런데 수백번,수천번 굴렸다고 해보죠. 그럼 각각의 나온 횟수가 1/6에 근사하게 나올겁니다. 그렇다면 주사의를 두개를 수천번 굴려서 그 합을 나타내볼까요? 그렇다면 아마 기대값에 가까운 숫자는 높게 그와 떨어진숫자들은 점점 적게 나올겁니다. 마치 정규분포의 모양처럼요.
이렇게 표본을 충분히 많이 확보할 수 있으면 그 표본변수의 합이나 평균같은게 정규분포를 따른다는 말이에요. 그 원래 모집단의 분포에 따라서 그 표본의 개수는 차이가 있겠죠. 분산이 큰 표본은 더 많은 수의 표본을 필요로 하고 이런것들이요. 그러나 모집단의 분포를 몰라도 표본이 충분히 크다면 구지 신경안써도 되는 부분입니다.
이렇게 중심극한정리를 이용하면 집단간에 평균비교로 집단차이를 비교할수 있고요. 또 정규분포라는 가정하에 하는 실험들도 많이있습니다.
모수적방법 VS 비모수적방법
추출된 표본의 평균이나 분산 표준편차 같은걸 통계량이라고 하고요. 원래 모집단의 평균 분산 표준편차를 모수라고 합니다.
그런데 위에서 봤듯이 겁나 많은통계의 평균혹은 분산은 정규성을 띈다고 볼 수 있으므로 그것을 이용한 것이 모수적방법입니다. 이때 표본의 크기가 작다고 생각될때 정규성 검정을 할 수 있죠. 정규성 검정은 밑에서 다시설명하겠습니다.
그런데 정규성검정에서 떨어지거나 표본이 얼마없는 소규모의 실험은 순위합검정 같은 비모수적 방법을 사용합니다. 이것도 대부분 모수적방법과 비교해봤을 때 만약 표본이 정규분포를 따를때에도 검정력이 크게 떨어지지는 않는다합니다. 그리고 표본의 분포가 멀리떨어진 경우에는 어쩔 수 없이 비모수적 방법을 사용해야겠지요.
그러나 모수적방법의 선호 이유는 검정력이 다소높고 비교 군 사이에 크기차이가 있는 경우엔 차이정도도 함께 제시할 수 있기때문입니다.
정규성검정
위에서 말했듯이 통계적방법들은 보통 정규분포를 따른다고 가정합니다. 그러나 모든 표본이 정규분포를 따르는 것은 아니기 때문에 이 정규성 검정을 거쳐야 될 때도 있죠. 표본수가 10개보다는 많은데 그렇다고 충분할 정도로 많지 않으므로 정규성검정을 거치는 거에요. 검정방법은 Kolmogorov-Smirnov Test와 Shapiro-Wilk Test가있습니다.