통계학을 처음 접하게 될 때 가장 초기에 듣는 것이 “중심극한정리”이다.
중심극한정리가 문헌에 나타난 것은 대략 1700년 경으로 알려져 있지만 정확히 언제부터 사람들이 이것을 알게 되었는지는 알려진 것이 없다고 한다. 하지만 중심극한정리는 통계학 역사상 가장 중요한 발견이라고 한다.
중심극한정리는 쉬워 보이지만 대충 개념을 확실히 이해하지 않고 넘어가면 후에 큰 실수하기 쉽다.
사실 근원(prime)까지 이해하기에는 중심극한정리는 매우 난해하고 현실에서 중심극한정리를 이용할 일이 많지 않기 때문에 간단하게 무엇인지만 알고 넘어가는 경우가 많다. 하지만 정확하게 알지 못하는 것으로 인해 통계분석을 진행하다가 틀린 논리를 근거로 내세우는 실수를 저지르기도 한다.
심지어 통계학을 전공한 사람들도 중심극한정리를 제대로 이해하지 못한 경우가 많다.
모집단(분석의 대상이 되는 집단)에서 K개씩의 샘플을 N회 복원추출한다고 할 때 K가 약 30이상의 너무 적지 않은 개수이고 시행횟수 N이 많아 질수록 K의 평균들이 정규분포에 점점 가까워진다.
다시 풀어서 정리하자면
위의 정의는 흔히 볼 수 있는 중심극한정리의 정의인데 이것이 전부가 아니다. 참고로 정확하지는 않지만 정규분포와 중심극한정리를 정리한 사람은 가우스라고 알려져 있다.
대한민국 성인남자의 키를 알아내기 위해서 샘플링을 시행한다고 하자. 임의표집(랜덤 샘플; random sample) 즉, 아무렇게나 30명쯤의 데이터를 추출한다. 그리고 다시 아무렇게나 30명쯤을 골라서 추출한다. 이것을 계속 반복한다. 이때 전에 뽑았던 사람도 다음번에 또 포함될 수 있다. 이것을 복원추출이라고 한다. 이렇게 복원추출을 계속해서 30명씩을 추출하는 것을 무한히 한다. 현실에서는 무한히 할 수 없으니 100번 또는 150번 정도까지만 먼저 해본다.
100번 이상을 추출하고 나면 신비한 현상이 나타난다.
추출할 때 30명씩을 뽑았는데 각 30명들의 평균을 구한다. 30개씩 100번을 뽑았다고 하면 평균값들을 100개를 구할 수 있다. 무한히 해야 하지만 그것은 불가능하므로 우선 100회까지만 하고 잠시 멈춘다고 가정한다.
위와 같은 시행을 하고나서 중요한 사실이 발견되고 또 증명되었는데 다음과 같다.
위의 사실이 맞다면 통계분석을 할 때 매우 불편한 것을 해소할 수 있다.
통계학에서 사용하는 방법들은 대부분 정규분포를 가정하고 있고 그리고 정규분포를 다루는 방법들이 다른 분포를 다루는 것보다 더 많이 연구되었고 그래서 더 정밀하다고 알려져 있다.
위의 방법으로 추출된 샘플이라면 정규분포를 이용한 분석들은 모두 할 수 있다.
위의 예에서 30명으로 한 것은 한 번 추출할 때 샘플의 수가 최소 30은 되어야 중심극한정리가 잘 작동한고 알려져 있기 때문이다. 100회로 한 것은 100회 정도 수행하면 평균들의 분포가 정규분포에 매우 비슷해진다고 알려져 있기 때문이다.
10억명의 평균키를 알아내야 한다고 해도 중심극한정리를 이용해서 매우 적은 수의 샘플로 알아낼 수 있다. 엄청난 비용절감이라고 할 수 있다.
“30명씩 100회를 추출하지 않고 한꺼번에 3000명을 한 번만 추출해도 되는가?”
3000명을 한 번에 추출하면 복원추출이 아니기 때문에 오차가 발생한다. 오차를 보정하는 공식을 사용하면 오차를 줄일 수 있다. 하지만 원칙은 복원추출을 반복시행한다는 것이다. 모집단이 매우 크다면 복원추출을 한다고 해도 같은 사람이 뽑혀 나올 확률이 낮겠지만 오차는 있다.
“30명씩 100회를 추출하지 않고 한꺼번에 3000명을 한 번만 추출한 것의 평균이 모집단의 평균과 일치하는가?”
매우 가깝긴 하겠지만 그렇지 않다. 평균들의 평균이 모집단의 평균에 수렴하는 것이다. 위에서 말한 보정이 필요한 이유이다.
용도를 모르기 때문에 흔히 개념만 알고 넘어가기 쉽다. 앞의 설명에 포함된 내용이지만 포괄적인 용도는 다음과 같다.
여기에서 가장 중요한 것은 1번이다. 전수검사를 하지 않고 모집단의 평균을 정확히 알아내는 것은 생각보다 매우 어려운 일이다.
모집단에서 랜덤샘플링을 반복해서 해야하기 때문에 컴퓨터를 사용한다고 해도 시간이 제법 많이 소요되므로 실제로 적용하기 어렵다.