중심극한정리 - CLT; Central Limit Theorem

중심극한정리 - Central Limit Theorem

통계학을 처음 접하게 될 때 가장 초기에 듣는 것이 “중심극한정리”이다.

중심극한정리가 문헌에 나타난 것은 대략 1700년 경으로 알려져 있지만 정확히 언제부터 사람들이 이것을 알게 되었는지는 알려진 것이 없다고 한다. 하지만 중심극한정리는 통계학 역사상 가장 중요한 발견이라고 한다.

중심극한정리는 쉬워 보이지만 대충 개념을 확실히 이해하지 않고 넘어가면 후에 큰 실수하기 쉽다.
사실 근원(prime)까지 이해하기에는 중심극한정리는 매우 난해하고 현실에서 중심극한정리를 이용할 일이 많지 않기 때문에 간단하게 무엇인지만 알고 넘어가는 경우가 많다. 하지만 정확하게 알지 못하는 것으로 인해 통계분석을 진행하다가 틀린 논리를 근거로 내세우는 실수를 저지르기도 한다.
심지어 통계학을 전공한 사람들도 중심극한정리를 제대로 이해하지 못한 경우가 많다.

정의 - definition

모집단(분석의 대상이 되는 집단)에서 K개씩의 샘플을 N회 복원추출한다고 할 때 K가 약 30이상의 너무 적지 않은 개수이고 시행횟수 N이 많아 질수록 K의 평균들이 정규분포에 점점 가까워진다.

다시 풀어서 정리하자면

  1. 모집단에서 랜덤샘플링(Uniform Random Sampling)으로 K개(약 30개이며 많을 수록 좋다) 이상의 데이터 포인트를 추출한다.
  2. 샘플에서 평균을 구한다.
  3. 반복해서 계속 추출한다. 단 이때 복원추출이다. 즉 앞의 샘플링에 추출된 데이터가 다시 추출될 수도 있다.
  4. 다시 평균을 구한다.
  5. 계속해서 적당히 반복한다. 최소 100회 이상은 수행해야 하며 많이 할수록 좋다.
  6. 위에서 구한 많은 평균값들의 분포는 정규분포이고 위의 평균값의 평균(평균값들에서 다시 평균을 구한 것)은 모집단의 평균과 일치한다.

위의 정의는 흔히 볼 수 있는 중심극한정리의 정의인데 이것이 전부가 아니다. 참고로 정확하지는 않지만 정규분포와 중심극한정리를 정리한 사람은 가우스라고 알려져 있다.

중심극한정리의 풀어쓴 설명

대한민국 성인남자의 키를 알아내기 위해서 샘플링을 시행한다고 하자. 임의표집(랜덤 샘플; random sample) 즉, 아무렇게나 30명쯤의 데이터를 추출한다. 그리고 다시 아무렇게나 30명쯤을 골라서 추출한다. 이것을 계속 반복한다. 이때 전에 뽑았던 사람도 다음번에 또 포함될 수 있다. 이것을 복원추출이라고 한다. 이렇게 복원추출을 계속해서 30명씩을 추출하는 것을 무한히 한다. 현실에서는 무한히 할 수 없으니 100번 또는 150번 정도까지만 먼저 해본다.

100번 이상을 추출하고 나면 신비한 현상이 나타난다.

추출할 때 30명씩을 뽑았는데 각 30명들의 평균을 구한다. 30개씩 100번을 뽑았다고 하면 평균값들을 100개를 구할 수 있다. 무한히 해야 하지만 그것은 불가능하므로 우선 100회까지만 하고 잠시 멈춘다고 가정한다.

위와 같은 시행을 하고나서 중요한 사실이 발견되고 또 증명되었는데 다음과 같다.

  1. 100개의 평균값들의 분포를 살펴보면 종모양(bell curve)이 되는데 정규분포와 비슷해진다. 더 진행해서 시행 횟수가 점점 많아 질수록 평균들의 분포가 정규분포에 점점 더 가까워진다. 아마도 무한히 반복하면 정규분포와 거의 완전하게 가까워 질 것이다.
  2. 위에서 구한 평균들을 가지고 다시 계산한 평균은 모집단의 평균과 비슷하고 시행횟수가 많아질 수록 모집단의 평균과 매우 근접하게 된다. 사실상 같다고 보아도 무방하다. 중심극한정리의 명칭의 중심은 이것을 말한다. 중심은 평균이고 극한(limit)은 시행을 무한히 하면 원래 집단의 평균에 매우 가까워 지는 것을 말한다.
  3. 모집단의 표준편차도 위의 평균들의 표준편차를 구해서 약간의 오차조정을 하게 되면 매우 근접한 값을 구할 수 있다.
  4. 모집단이 정규분포, 즉 종모양으로 된 것이 아니며 어떤 형태의 분포라도 위의 시행을 하게 되면 평균들의 분포는 정규분포가 된다.

위의 사실이 맞다면 통계분석을 할 때 매우 불편한 것을 해소할 수 있다.

  1. 모집단이 정규분포가 아니어도 된다.
  2. 적게는 1000개쯤의 샘플로 모집단의 평균과 표준편차를 매우 정확하게 알아낼 수 있다.

통계학에서 사용하는 방법들은 대부분 정규분포를 가정하고 있고 그리고 정규분포를 다루는 방법들이 다른 분포를 다루는 것보다 더 많이 연구되었고 그래서 더 정밀하다고 알려져 있다.
위의 방법으로 추출된 샘플이라면 정규분포를 이용한 분석들은 모두 할 수 있다.

위의 예에서 30명으로 한 것은 한 번 추출할 때 샘플의 수가 최소 30은 되어야 중심극한정리가 잘 작동한고 알려져 있기 때문이다. 100회로 한 것은 100회 정도 수행하면 평균들의 분포가 정규분포에 매우 비슷해진다고 알려져 있기 때문이다.

10억명의 평균키를 알아내야 한다고 해도 중심극한정리를 이용해서 매우 적은 수의 샘플로 알아낼 수 있다. 엄청난 비용절감이라고 할 수 있다.

중심극한정리에서 주의할 것

“30명씩 100회를 추출하지 않고 한꺼번에 3000명을 한 번만 추출해도 되는가?”

3000명을 한 번에 추출하면 복원추출이 아니기 때문에 오차가 발생한다. 오차를 보정하는 공식을 사용하면 오차를 줄일 수 있다. 하지만 원칙은 복원추출을 반복시행한다는 것이다. 모집단이 매우 크다면 복원추출을 한다고 해도 같은 사람이 뽑혀 나올 확률이 낮겠지만 오차는 있다.

“30명씩 100회를 추출하지 않고 한꺼번에 3000명을 한 번만 추출한 것의 평균이 모집단의 평균과 일치하는가?”

매우 가깝긴 하겠지만 그렇지 않다. 평균들의 평균이 모집단의 평균에 수렴하는 것이다. 위에서 말한 보정이 필요한 이유이다.

용도

용도를 모르기 때문에 흔히 개념만 알고 넘어가기 쉽다. 앞의 설명에 포함된 내용이지만 포괄적인 용도는 다음과 같다.

  1. 적은 샘플수로 모집단의 평균을 매우 정확하게 알아낼 수 있다.
  2. 적은 샘플수로 모집단의 분산을 매우 정학하게 알아낼 수 있다.
  3. 모든 데이터를 정규분포로 만들 수 있다.
  4. 위의 샘플의 평균들은 정규분포하기 때문에 정규분포를 가정하는 통계적 가설검정 및 기법을 여기에 모두 적용해도 아무런 무리가 없다.

여기에서 가장 중요한 것은 1번이다. 전수검사를 하지 않고 모집단의 평균을 정확히 알아내는 것은 생각보다 매우 어려운 일이다.

문제점

모집단에서 랜덤샘플링을 반복해서 해야하기 때문에 컴퓨터를 사용한다고 해도 시간이 제법 많이 소요되므로 실제로 적용하기 어렵다.

참고

위키피디아 - 중심극한정리


최종수정일: 2021-08-03 11:50
Copyright by IntoTheData all rights reserverd.