박스플롯 (Box Plot) #
박스플롯은 데이터의 분포를 요약 통계량을 통해 시각적으로 나타내는 통계 차트로, 데이터의 중심 경향성, 산포, 대칭성, 이상치를 한눈에 파악할 수 있게 해준다. 영어로는 Box Plot, Box-and-Whisker Plot, 또는 Box Chart라고 부르며, 탐색적 데이터 분석에서 가장 중요한 도구 중 하나다.
박스플롯의 정의와 구조 #
박스플롯은 다음과 같은 구조로 이루어져 있다:
1. 박스 (Box)
- 제1사분위수(Q1)부터 제3사분위수(Q3)까지의 범위
- 전체 데이터의 중간 50%를 포함하는 구간
- 박스의 높이는 사분위수 범위(IQR = Q3 - Q1)를 나타냄
2. 중앙선 (Median Line)
- 박스 내부의 수평선으로 중앙값(Q2) 표시
- 데이터의 중심 위치를 나타내는 핵심 지표
- 박스 내에서의 위치로 분포의 치우침 정도 파악
3. 수염 (Whiskers)
- 박스에서 위아래로 뻗어나가는 선
- 일반적으로 Q1 - 1.5×IQR부터 Q3 + 1.5×IQR까지의 범위
- 이상치를 제외한 데이터의 최대 범위 표시
4. 이상치 (Outliers)
- 수염 범위를 벗어나는 개별 데이터 포인트
- 점이나 별표로 표시되는 특이값
- 데이터 품질이나 특별한 사례를 나타낼 수 있음
5. 극값 (Extremes)
- 이상치를 제외한 실제 최솟값과 최댓값
- 수염의 끝점에 위치하는 값들
- 데이터의 실제 범위를 나타냄
박스플롯의 주요 특징과 장점 #
1. 요약 통계량 시각화
- 5개 수치 요약(Five-Number Summary) 한눈에 파악
- 최솟값, Q1, 중앙값, Q3, 최댓값의 위치 관계 확인
- 복잡한 분포를 간단한 형태로 요약
2. 분포의 형태 파악
- 데이터의 대칭성과 치우침 정도 확인
- 중앙값의 박스 내 위치로 분포 특성 파악
- 수염의 길이로 데이터의 산포 정도 이해
3. 이상치 탐지
- 통계적 기준에 따른 이상치 자동 식별
- 데이터 품질 문제나 특별한 사례 발견
- 추가 조사가 필요한 데이터 포인트 표시
4. 그룹 간 비교
- 여러 그룹의 분포를 나란히 비교
- 중앙값, 산포, 이상치 패턴의 차이 분석
- 범주별 데이터 특성 비교에 효과적
박스플롯의 활용 분야와 사례 #
1. 품질 관리
- 제품 규격의 일관성 모니터링
- 공정별 품질 지표 비교 분석
- 불량품 발생 패턴 및 이상치 탐지
2. 교육 평가
- 학급별, 과목별 성적 분포 비교
- 시험 난이도와 변별력 평가
- 학습자 그룹 간 성취도 차이 분석
3. 의학 연구
- 치료군과 대조군의 효과 비교
- 환자 그룹별 생체 지표 분포 분석
- 임상시험 결과의 통계적 요약
4. 비즈니스 분석
- 지역별, 기간별 매출 분포 비교
- 고객 세그먼트별 구매 패턴 분석
- 마케팅 캠페인 효과 측정
박스플롯의 종류와 변형 #
1. 표준 박스플롯 (Standard Box Plot)
- 가장 기본적인 형태의 박스플롯
- 1.5×IQR 규칙을 사용한 이상치 정의
- 단일 변수의 분포 요약
2. 노치 박스플롯 (Notched Box Plot)
- 중앙값 주변에 노치(홈) 추가
- 중앙값의 신뢰구간 표시
- 그룹 간 중앙값 차이의 통계적 유의성 판단
3. 바이올린 플롯 (Violin Plot)
- 박스플롯과 커널 밀도 추정을 결합
- 분포의 전체적인 형태와 밀도 동시 표현
- 다봉분포나 복잡한 분포 패턴 시각화
4. 비 플롯 (Bee Swarm Plot)
- 박스플롯과 개별 데이터 포인트를 결합
- 모든 데이터 포인트의 위치 표시
- 소규모 데이터셋의 상세한 분포 확인
박스플롯 해석 방법 #
1. 중심 경향성 분석
- 중앙값의 위치로 데이터의 중심 파악
- 여러 그룹의 중앙값 비교를 통한 차이 분석
- 평균과 중앙값의 관계 추정
2. 산포와 변동성
- 박스의 높이(IQR)로 데이터의 집중도 파악
- 수염의 길이로 전체적인 변동성 이해
- 그룹 간 변동성 차이 비교
3. 분포의 대칭성
- 중앙값이 박스 중앙에 위치: 대칭 분포
- 중앙값이 박스 아래쪽: 오른쪽 치우침 (양의 치우침)
- 중앙값이 박스 위쪽: 왼쪽 치우침 (음의 치우침)
4. 이상치 패턴
- 이상치의 개수와 위치 확인
- 한쪽 방향으로 치우친 이상치 패턴 분석
- 이상치가 분석에 미치는 영향 평가
박스플롯 작성 시 주의사항 #
1. 데이터 크기 고려
- 너무 작은 데이터셋에서는 해석에 주의
- 최소 20-30개 이상의 데이터 포인트 권장
- 소규모 데이터는 개별 점 표시 고려
2. 이상치 정의 기준
- 1.5×IQR 규칙이 항상 적절하지 않을 수 있음
- 도메인 지식을 바탕으로 한 이상치 기준 설정
- 여러 이상치 탐지 방법 병행 사용
3. 축 설정과 스케일
- 적절한 Y축 범위 설정으로 분포 특성 강조
- 로그 스케일 사용 시 해석 방법 변경
- 그룹 간 비교 시 동일한 스케일 사용
4. 레이블과 설명
- 명확한 축 레이블과 단위 표시
- 그룹별 구분을 위한 범례 제공
- 이상치 처리 방법과 기준 명시
박스플롯의 한계와 보완 방법 #
1. 분포 형태의 세부 정보 손실
- 다봉분포나 복잡한 분포 패턴 표현 어려움
- 히스토그램이나 밀도 플롯과 병행 사용
- 바이올린 플롯으로 보완 가능
2. 표본 크기 정보 부족
- 박스플롯만으로는 데이터 개수 파악 어려움
- 표본 크기 정보를 별도로 제공
- 박스의 폭으로 표본 크기 표현하는 방법 고려
3. 연속형 데이터에 한정
- 범주형 데이터에는 직접 적용 불가
- 순서형 데이터의 경우 신중한 해석 필요
- 적절한 데이터 변환 후 사용
고급 박스플롯 기법 #
1. 다변량 박스플롯
- 여러 변수를 동시에 비교하는 패널 박스플롯
- 변수 간 분포 특성 비교 분석
- 상관관계와 패턴 탐색에 유용
2. 시계열 박스플롯
- 시간에 따른 분포 변화 추적
- 계절성이나 트렌드 패턴 시각화
- 주기별 분포 특성 비교
3. 조건부 박스플롯
- 특정 조건에 따른 분포 차이 분석
- 교호작용 효과나 조절 변수 영향 탐색
- 복잡한 데이터 구조의 이해
박스플롯과 다른 시각화 방법과의 비교 #
박스플롯 vs 히스토그램
- 박스플롯: 요약 통계량 중심, 그룹 비교에 적합
- 히스토그램: 분포의 전체 형태, 단일 변수 분석에 적합
박스플롯 vs 산점도
- 박스플롯: 단일 변수의 분포 요약
- 산점도: 두 변수 간의 관계 분석
박스플롯 vs 바이올린 플롯
- 박스플롯: 간단하고 명확한 요약 정보
- 바이올린 플롯: 분포의 세부 형태까지 표현
실제 활용 예시 #
예시 1: 학급별 수학 성적 비교
- 3개 학급의 수학 시험 점수 분포 비교
- 각 학급의 중앙값, 산포, 이상치 패턴 분석
- 학급 간 성취도 차이와 교육 방법 효과 평가
예시 2: 지역별 부동산 가격 분석
- 서울 5개 구의 아파트 가격 분포 비교
- 지역별 가격 중앙값과 변동성 차이 확인
- 고가 매물(이상치) 분포 패턴 분석
예시 3: 제품 품질 관리
- 4개 생산라인의 제품 무게 분포 비교
- 각 라인의 품질 일관성과 규격 준수율 평가
- 품질 이상 제품 발생 패턴 모니터링