데이터의 분포를 정규분포로 가정하고(또는 우기고) 평균으로 부터 ±표준편차 * 시그마계수를 벗어나면 아웃라이어(outlier, 이상치)라고 판단하는 것을 말한다. 너무 단순한 것이라고 해서 최근에는 그대로 사용하는 경우는 거의 없다. 하지만 단순하면서도 상당히 그럴듯하게 작동한다.
시그마계수는 표준편차에 얼마를 곱해서 아웃라이어의 지점을 결정할 것인가를 말하는데 보통 2 ~ 3의 값을 사용한다. 표준편차에 2에서 3사이의 값을 곱해서 양과 음의 범위를 신뢰구간으로 보고 그 범위를 벗어나는 것을 아웃라이어로 결정하는 것이다.
3시그마보다는 2시그마를 사용하는 것이 일반적으로 많이 알려져 있다. 정규분포에서 3시그마의 범위는 전체의 99%를 차지하게 되며 나머지 1%가 아웃라이어가 되므로 여기에 해당하는것이 너무 적기 때문이다.
이 범위는 다음가 같이 기억하면 쉽다.
이와 관련된 것은 위키피디아의 68-95-99.7_규칙을 참고하기 바란다.
시그마를 활용할 때는 대상의 데이터가 정규분포라는 가정을 두는 경우가 일반적이다. 단봉(unimodal)의 좌우 대칭형의 분포일 때를 말한다. 정규분포 처럼 생긴 분포를 서양식의 종처럼 생겼다고 해서 벨커브(bell curve)라고 부르는데 종모양의 분포 일 때 봉우리가 가장 높은 지점의 x축이 종모양의 정중앙이다.
정중앙으로부터 좌우의 일정 부분까지를 평균에 가깝기 때문에 보편성에 가깝다고 보고 신뢰구간으로 정하는데 이때 신뢰구간의 범위는 정하기 나름이지만 흔히 정중앙의 x축으로부터 좌우 2시그마 까지의 범위를 신뢰구간으로 사용하고 더 엄격하게 하고 싶으면 배수를 늘려서 2.5시그마, 3시그마 등으로 사용하며 3시그마가 넘는 것을 사용하는 것은 흔치 않다.
흔히 쓰는 신뢰구간은 2시그마인데 평균에서 2시그마 만큼까지의 좌위 범위내에 있는 것들의 비율이 전체의 95%가 포함되게 된다.
※ 그림 (그림 유실)
위 그림에서는 -2시그마와 2시그마 사이를 말한다.
이것을 응용해서 위의 범위를 벗어난 양쪽 꼬리 부분에 들어 있다면 아웃라이어(outlier), 즉 이상치라고 간주해서 간단한 이상치 감지 모형을 만들어서 사용할 수 있다.
2시그마(2표준편차)를 사용할 것인지 3시그마(3ㅡ 것은표준편차)를 사용할 것인지는 하는 사람이 경험적으로 선택하지만 보통 2.5시그마 정도에서 시작해서 경험적 또는 실험적으로 값을 바꿔나가면서 이상치(outlier)를 찾는다.
6 sigma는 “식스시그마”로 많이 발음하며 제조업의 공정관리에서 흔히 들을 수 있는 용어이다. 불량률을 제로에 가깝게 관리하겠다는 기조로 관리한다는 뜻에서 출발했다고 한다.
6시그마는 분포표에서 볼때 표준편차에서 6을 x축을 기준으로 좌우를 펼쳤을 때 전체 중의 99.9999998027%의 범위가 되는 것을 말한다. 신뢰도와 수율에 흔히 이상적인 기준으로 말하는 것이며 수율을 저만큼 높이겠다는 의지의 표현이자 완벽하다는 의미이다. 완전한 제품을 만들기 위한 관리 방법을 6시그마라고 부른다.
이상감지는 아웃라이어 감지의 일종이라고 볼 수 있다. 아웃라이어 감지를 시간의 흐름이 있는 데이터에서 평소에는 나타나지 않던 아웃라이어가 보일 때 이상한 것으로 감지하겠다고 한다면 그것이 이상감지의 문제로 본다.
하지만 모든 문제에서 아웃라이어가 이상함을 뜻하지는 않으므로 아웃라이어 감지와 이상감지가 반드시 일치하는 개념이라고 생각해서는 안된다.