3 sigma rule

개요

그림

데이터의 분포를 정규분포로 가정하고(또는 우기고) 평균으로 부터 ±표준편차 * 시그마계수를 벗어나면 아웃라이어(outlier, 이상치)라고 판단하는 것을 말한다. 너무 단순한 것이라고 해서 최근에는 그대로 사용하는 경우는 거의 없지만 단순하지만 잘 작동한다.

시그마계수는 표준편차에 얼마를 곱할 것인가를 말하는데 보통 2 ~ 3의 값을 사용한다. 3시그마보다는 2시그마가 일반적으로 많이 알려져 있다.

다음과 같은 수치를 연상하면 기억하기 쉽다.

  • 2SD, 2시그마: 약 95% 신뢰도
  • 3SD, 3시그마: 약 99% 신뢰도
  • 6SD, 6시그마: 약 99.999999% 신뢰도

이와 관련된 것은 위키피디아의 68-95-99.7_규칙을 참고하기 바란다.

시그마의 응용

시그마를 활용할 때는 대상의 데이터가 정규분포라는 가정을 두는 경우가 일반적이다. 단봉(unimodal)의 좌우 대칭형의 분포일 때를 말한다. 정규분포 처럼 생긴 분포를 서양식의 종처럼 생겼다고 해서 벨커브(bell curve)라고 부르는데 종모양의 분포 일 때 봉우리가 가장 높은 지점의 x축이 종모양의 정중앙이다.

정중앙으로부터 좌우의 일정 부분까지를 평균에 가깝기 때문에 보편성에 가깝다고 보고 신뢰구간으로 정하는데 이때 신뢰구간의 범위는 정하기 나름이지만 흔히 정중앙의 x축으로부터 좌우 2시그마 까지의 범위를 신뢰구간으로 사용하고 더 엄격하게 하고 싶으면 배수를 늘려서 2.5시그마, 3시그마 등으로 사용하며 3시그마가 넘는 것을 사용하는 것은 흔치 않다.

흔히 쓰는 신뢰구간은 2시그마인데 평균에서 2시그마 만큼까지의 좌위 범위내에 있는 것들의 비율이 전체의 95%가 포함되게 된다.  ※ 그림

위 그림에서는 -2시그마와 2시그마 사이를 말한다.

이것을 응용해서 위의 범위를 벗어난 양쪽 꼬리 부분에 들어 있다면 아웃라이어(outlier), 즉 이상치라고 간주해서 간단한 이상치 감지 모형을 만들어서 사용할 수 있다.

2시그마(2*표준편차)를 사용할 것인지 3시그마(3ㅡ 것은*표준편차)를 사용할 것인지는 하는 사람이 경험적으로 선택하지만 보통 2.5시그마 정도에서 시작해서 경험적 또는 실험적으로 값을 바꿔나가면서 이상치(outlier)를 찾는다.

6시그마와의 관련

6 sigma는 “식스시그마”로 많이 발음하며 제조업의 공정관리에서 흔히 들을 수 있는 용어이다. 불량률을 제로에 가깝게 관리하겠다는 기조로 관리한다는 뜻에서 출발했다고 한다.

6시그마는 분포표에서 볼때 표준편차에서 6을 x축을 기준으로 좌우를 펼쳤을 때 전체 중의 99.9999998027%의 범위가 되는 것을 말한다. 신뢰도와 수율을 말하는 것이며 그만큼 완전한 제품을 만들기 위한 관리 방법이 6시그마이다.

참조

위키피디아