기술통계학 (Descriptive Statistics) #
기술통계학(Descriptive Statistics)은 수집된 데이터를 그래프나 숫자 등으로 요약하고 기술하는 통계적 방법론이다. 영어로는 Descriptive Statistics라고 하며, “기술"은 “어떤 것을 문서에 기술한다"할 때의 그 기술(記述)을 의미한다. 일반적인 기술(技術, technique)을 말하는 것이 아니므로 주의가 필요하다.
기술통계학의 정의와 목적 #
기술통계학은 다음과 같은 특징과 목적을 가진다:
- 데이터 요약: 복잡하고 방대한 데이터를 이해하기 쉬운 형태로 정리
- 패턴 발견: 데이터에 숨겨진 패턴과 특성을 시각적으로 드러냄
- 객관적 기술: 주관적 해석 없이 데이터 자체의 특성을 객관적으로 제시
- 의사소통 도구: 복잡한 데이터를 다른 사람에게 효과적으로 전달
기술통계학은 추론통계학과 달리 표본을 통해 모집단을 추론하지 않고, 주어진 데이터 자체의 특성을 파악하는 데 중점을 둔다.
기술통계학의 주요 구성 요소 #
1. 중심경향성 측도 (Measures of Central Tendency) #
데이터의 중심값을 나타내는 지표들:
- 평균 (Mean): 모든 값의 합을 개수로 나눈 값
- 중앙값 (Median): 데이터를 크기 순으로 정렬했을 때 가운데 위치하는 값
- 최빈값 (Mode): 가장 자주 나타나는 값
2. 변동성 측도 (Measures of Variability) #
데이터의 흩어진 정도를 나타내는 지표들:
- 범위 (Range): 최댓값에서 최솟값을 뺀 값
- 분산 (Variance): 평균으로부터의 편차 제곱의 평균
- 표준편차 (Standard Deviation): 분산의 제곱근
- 사분위수 범위 (IQR): 제3사분위수에서 제1사분위수를 뺀 값
3. 분포의 형태 (Shape of Distribution) #
데이터 분포의 모양을 나타내는 지표들:
- 왜도 (Skewness): 분포의 비대칭성 정도
- 첨도 (Kurtosis): 분포의 뾰족한 정도
도수분포표 (Frequency Distribution) #
도수분포표는 여러 계급(class)의 도수(frequency)를 겹치지 않게 표로 요약한 것이다.
도수분포표의 구성 요소 #
- 계급 (Class): 데이터를 구간별로 나눈 범위
- 계급값 (Class Mark): 각 계급의 중점값
- 도수 (Frequency): 각 계급에 속하는 데이터의 개수
- 상대도수 (Relative Frequency): 전체에서 각 계급이 차지하는 비율
도수분포표 작성 시 주의사항 #
- 계급의 수: 일반적으로 5~20개 사이가 적절
- 계급 간격: 가능한 한 동일하게 설정
- 계급 경계: 명확하고 겹치지 않게 설정
누적도수분포표 (Cumulative Frequency Distribution) #
정량자료에 대해 도수분포표를 누적으로 표현한 것이다. 특정 값 이하의 데이터가 얼마나 되는지를 파악할 수 있어 확률 계산이나 백분위수 계산에 매우 유용하다.
누적도수분포의 활용 #
- 백분위수 계산: 특정 백분위에 해당하는 값 찾기
- 확률 계산: 특정 값 이하일 확률 계산
- 분포 비교: 서로 다른 분포의 누적 패턴 비교
교차표 (Cross-tabulation) #
두 개 이상의 범주형 변수 간의 관계를 요약하는 표이다. 변수들 간의 연관성을 파악하는 데 유용하다.
교차표의 구성 #
- 행 변수: 표의 행에 배치되는 변수
- 열 변수: 표의 열에 배치되는 변수
- 셀 빈도: 각 조합에 해당하는 관측값의 수
- 주변 합계: 각 행과 열의 총합
교차표 분석 #
- 독립성 검정: 두 변수가 서로 독립적인지 검정
- 연관성 측도: 크래머의 V, 파이 계수 등을 통한 연관성 정도 측정
심슨의 역설 (Simpson’s Paradox) #
두 개 이상의 교차표로부터 파생교차표를 만드는 경우, 결합교차표와 비결합교차표에서 동일한 문제에 대해 각각 상반된 결론을 내는 통계적 현상이다.
심슨의 역설의 원인 #
- 숨겨진 변수: 분석에서 고려되지 않은 중요한 변수의 존재
- 표본 크기의 불균형: 각 그룹의 표본 크기가 크게 다른 경우
- 가중평균의 오해: 단순평균과 가중평균의 차이를 간과
심슨의 역설 방지법 #
- 층화분석: 중요한 변수별로 층을 나누어 분석
- 다변량 분석: 여러 변수를 동시에 고려하는 분석 방법 사용
- 인과관계 고려: 변수 간의 인과관계를 명확히 파악
변동성 척도 (Measures of Variability) #
데이터의 흩어진 정도를 측정하는 다양한 방법들이 있다.
범위 (Range) #
가장 기초적인 변동성 측도로, 최댓값에서 최솟값을 뺀 값이다.
장점: 계산이 간단하고 직관적으로 이해하기 쉬움 단점: 극단값의 영향을 크게 받아 전체 데이터의 변동성을 제대로 반영하지 못할 수 있음
사분위수 범위 (Interquartile Range, IQR) #
제3사분위수(Q3)에서 제1사분위수(Q1)를 뺀 값으로, 중간 50%의 데이터 범위를 나타낸다.
장점: 극단값의 영향을 받지 않음 활용: 박스플롯에서 이상치 탐지에 사용
분산과 표준편차 #
- 분산: 각 데이터가 평균으로부터 얼마나 떨어져 있는지의 제곱 평균
- 표준편차: 분산의 제곱근으로, 원래 데이터와 같은 단위를 가짐
시각화 도구 #
히스토그램 (Histogram) #
연속형 데이터의 분포를 시각화하는 가장 기본적인 도구
박스플롯 (Box Plot) #
데이터의 분포를 5개 수치(최솟값, Q1, 중앙값, Q3, 최댓값)로 요약하여 표현
산점도 (Scatter Plot) #
두 연속형 변수 간의 관계를 시각화
막대그래프 (Bar Chart) #
범주형 데이터의 빈도나 비율을 시각화
역사적 배경 #
기술통계학의 발전에 기여한 주요 인물들:
- 칼 피어슨 (Karl Pearson, 1857-1936): 최초의 통계학과 교수로 기술통계학 발전에 크게 기여
- 로널드 피셔 (Ronald Fisher, 1890-1962): 추론통계학의 아버지로 불리며 현대 통계학의 기초를 확립
- 프랜시스 골턴 (Francis Galton, 1822-1911): 상관관계와 회귀분석의 개념을 도입
현대적 활용 #
현대 데이터 과학에서 기술통계학은 다음과 같이 활용된다:
- 탐색적 데이터 분석 (EDA): 데이터 분석의 첫 단계로 데이터의 특성 파악
- 데이터 품질 평가: 결측값, 이상치, 데이터 분포 확인
- 보고서 작성: 분석 결과를 이해관계자에게 효과적으로 전달
- 기계학습 전처리: 모델링 전 데이터의 특성 이해
기술통계학은 모든 통계 분석의 출발점이며, 데이터를 올바르게 이해하고 해석하기 위한 필수적인 도구이다.