왜 통계가 어려울까?
이 책에 있어서 가장 중요한 부분은 첫 번째에 나와있습니다. 통계방법을 설계하고 기법을 선택할 수 있는데 있어서 기본인 부분입니다.
독립변수 vs 종속변수
우선 독립변수와 종속변수의 관계부터 이해하죠. 독립변수는 어떤 상황에 있어서 독립인 변수죠. 전의 실험이나 확률에 대해서 영향 받지 않는 변수입니다. 그 반대가 종속변수이므로 종속변수는 그 전의 변수에 의해서 영향을 수이죠.
자료 분류
자료들은 분류될수있겠죠? 이 분류하는 방법에 따라서 discrete과 continuous으로 나눌 수 있습니다. discrete은 수치화 하기 어려운 것아니면 수치를 구간으로 나누어 순서로 활용할 때 더 이용하기 쉬운 데이터들 입니다. 예를 들면 털이 많다, 적다, 중간이다. 이런 식으로 구분해놓은 데이터는 discrete이고 털이 1센치 제곱만큼의 구역에 몇가닥이 있다. 이런식으로 수량화해놓은 것은 continuous입니다. 그런데 주위할 것은 숫자가 나와서 continuous 데이터로 착각하면 안됩니다. 털이 많고 적음을 5개의 구간으로 나워서 1급~5급까지 나눠 놨다면 이것은 discrete 데이터입니다.
가설검증방법
귀무가설 : 내가 검증하려는 것과 반대
대립가설 : 내가 검증하려는 것
이렇게 놓고 귀무가설을 입증하는 데 귀무가설이 맞을 확률이 0.05% 미만이면 대립가설을 채택하고 귀무가설을 기각합니다. 그러므로 우위성을 입증하냐, 동등성을 입증하냐에 따라서 귀무가설, 대립가설 설정이 다릅니다.
우위성입증인 "A약이 B약보다 효과가 있다"를 입증할 때는 "A약과 B약은 효과에 차이가 없다"가 귀무가설입니다. 반대로 동등성입증인 "A약과 B약은 효과에 차이가 없다"를 입증할 때는 "A약과 B약은 효과에 차이가 있다"가 귀무가설입니다.
5% 유의수준
가설검증에서 귀무가설이 실제로 참일 때 귀무가설에 대한 판단의 오류수준(잘못 기각할 확률)을 말하며, 제1종 오류의 위험성을 부담할 최대 확률을 가설의 유의수준이라고 한다.
[네이버 지식백과] 유의수준 [level of significance] (교육평가용어사전, 2004.5.31, 학지사)
하나는 귀무가설을 기각했는데 실제로는 귀무가설이 참인 경우입니다.
두번째는 귀무가설을 채택했는데 귀무가설이 거짓인 경우입니다.
그런데 두번째 경우에는 내가 검증하려는 것과 반대의 결과가 나옴으로써 이 실험은 발표되지 않습니다. 그러므로 위험성이 첫번째 경우보다 적다고 할 수 있겠죠? 첫 번째는 대립가설이 채택되서 발표했는데 사실상 그렇지 않은 경우가 많으므로 위험성이 크다고 할 수 있죠. 그래서 이 오류를 알파오류, 두번째 오류를 베타오류라고 하는겁니다.
이 알파오류가 나올 확률을 5%미만으로 하자고 학계에서 권고를 합니다. 그리고 귀무가설이 기각되었고 실제로도 귀무가설이 거짓일 경우에 (1-베타오류수준)으로 효과를 증명할 수 있습니다. 이것을 검정력이라고 하며 이 검정력을 최대로 하기위해서 많은 실험에서 통계기법을 각자 다르게 사용하는 것입니다.
이 외에 다중비교, 자유도, 분포, 검정통계량, 중심극한정리, 모수적방법과 비모수적방법, 정규성검정 방법 등 여러가지의 기본은 다음에 계속할게요.