기술통계

기술통계학 (Descriptive Statistics) #

기술통계학(Descriptive Statistics)은 수집된 데이터를 그래프나 숫자 등으로 요약하고 기술하는 통계적 방법론이다. 영어로는 Descriptive Statistics라고 하며, “기술"은 “어떤 것을 문서에 기술한다"할 때의 그 기술(記述)을 의미한다. 일반적인 기술(技術, technique)을 말하는 것이 아니므로 주의가 필요하다.

기술통계학의 정의와 목적 #

기술통계학은 다음과 같은 특징과 목적을 가진다:

  • 데이터 요약: 복잡하고 방대한 데이터를 이해하기 쉬운 형태로 정리
  • 패턴 발견: 데이터에 숨겨진 패턴과 특성을 시각적으로 드러냄
  • 객관적 기술: 주관적 해석 없이 데이터 자체의 특성을 객관적으로 제시
  • 의사소통 도구: 복잡한 데이터를 다른 사람에게 효과적으로 전달

기술통계학은 추론통계학과 달리 표본을 통해 모집단을 추론하지 않고, 주어진 데이터 자체의 특성을 파악하는 데 중점을 둔다.

기술통계학의 주요 구성 요소 #

1. 중심경향성 측도 (Measures of Central Tendency) #

데이터의 중심값을 나타내는 지표들:

  • 평균 (Mean): 모든 값의 합을 개수로 나눈 값
  • 중앙값 (Median): 데이터를 크기 순으로 정렬했을 때 가운데 위치하는 값
  • 최빈값 (Mode): 가장 자주 나타나는 값

2. 변동성 측도 (Measures of Variability) #

데이터의 흩어진 정도를 나타내는 지표들:

  • 범위 (Range): 최댓값에서 최솟값을 뺀 값
  • 분산 (Variance): 평균으로부터의 편차 제곱의 평균
  • 표준편차 (Standard Deviation): 분산의 제곱근
  • 사분위수 범위 (IQR): 제3사분위수에서 제1사분위수를 뺀 값

3. 분포의 형태 (Shape of Distribution) #

데이터 분포의 모양을 나타내는 지표들:

  • 왜도 (Skewness): 분포의 비대칭성 정도
  • 첨도 (Kurtosis): 분포의 뾰족한 정도

도수분포표 (Frequency Distribution) #

도수분포표는 여러 계급(class)의 도수(frequency)를 겹치지 않게 표로 요약한 것이다.

도수분포표의 구성 요소 #

  • 계급 (Class): 데이터를 구간별로 나눈 범위
  • 계급값 (Class Mark): 각 계급의 중점값
  • 도수 (Frequency): 각 계급에 속하는 데이터의 개수
  • 상대도수 (Relative Frequency): 전체에서 각 계급이 차지하는 비율

도수분포표 작성 시 주의사항 #

  • 계급의 수: 일반적으로 5~20개 사이가 적절
  • 계급 간격: 가능한 한 동일하게 설정
  • 계급 경계: 명확하고 겹치지 않게 설정

누적도수분포표 (Cumulative Frequency Distribution) #

정량자료에 대해 도수분포표를 누적으로 표현한 것이다. 특정 값 이하의 데이터가 얼마나 되는지를 파악할 수 있어 확률 계산이나 백분위수 계산에 매우 유용하다.

누적도수분포의 활용 #

  • 백분위수 계산: 특정 백분위에 해당하는 값 찾기
  • 확률 계산: 특정 값 이하일 확률 계산
  • 분포 비교: 서로 다른 분포의 누적 패턴 비교

교차표 (Cross-tabulation) #

두 개 이상의 범주형 변수 간의 관계를 요약하는 표이다. 변수들 간의 연관성을 파악하는 데 유용하다.

교차표의 구성 #

  • 행 변수: 표의 행에 배치되는 변수
  • 열 변수: 표의 열에 배치되는 변수
  • 셀 빈도: 각 조합에 해당하는 관측값의 수
  • 주변 합계: 각 행과 열의 총합

교차표 분석 #

  • 독립성 검정: 두 변수가 서로 독립적인지 검정
  • 연관성 측도: 크래머의 V, 파이 계수 등을 통한 연관성 정도 측정

심슨의 역설 (Simpson’s Paradox) #

두 개 이상의 교차표로부터 파생교차표를 만드는 경우, 결합교차표와 비결합교차표에서 동일한 문제에 대해 각각 상반된 결론을 내는 통계적 현상이다.

심슨의 역설의 원인 #

  • 숨겨진 변수: 분석에서 고려되지 않은 중요한 변수의 존재
  • 표본 크기의 불균형: 각 그룹의 표본 크기가 크게 다른 경우
  • 가중평균의 오해: 단순평균과 가중평균의 차이를 간과

심슨의 역설 방지법 #

  • 층화분석: 중요한 변수별로 층을 나누어 분석
  • 다변량 분석: 여러 변수를 동시에 고려하는 분석 방법 사용
  • 인과관계 고려: 변수 간의 인과관계를 명확히 파악

변동성 척도 (Measures of Variability) #

데이터의 흩어진 정도를 측정하는 다양한 방법들이 있다.

범위 (Range) #

가장 기초적인 변동성 측도로, 최댓값에서 최솟값을 뺀 값이다.

장점: 계산이 간단하고 직관적으로 이해하기 쉬움 단점: 극단값의 영향을 크게 받아 전체 데이터의 변동성을 제대로 반영하지 못할 수 있음

사분위수 범위 (Interquartile Range, IQR) #

제3사분위수(Q3)에서 제1사분위수(Q1)를 뺀 값으로, 중간 50%의 데이터 범위를 나타낸다.

장점: 극단값의 영향을 받지 않음 활용: 박스플롯에서 이상치 탐지에 사용

분산과 표준편차 #

  • 분산: 각 데이터가 평균으로부터 얼마나 떨어져 있는지의 제곱 평균
  • 표준편차: 분산의 제곱근으로, 원래 데이터와 같은 단위를 가짐

시각화 도구 #

히스토그램 (Histogram) #

연속형 데이터의 분포를 시각화하는 가장 기본적인 도구

박스플롯 (Box Plot) #

데이터의 분포를 5개 수치(최솟값, Q1, 중앙값, Q3, 최댓값)로 요약하여 표현

산점도 (Scatter Plot) #

두 연속형 변수 간의 관계를 시각화

막대그래프 (Bar Chart) #

범주형 데이터의 빈도나 비율을 시각화

역사적 배경 #

기술통계학의 발전에 기여한 주요 인물들:

  • 칼 피어슨 (Karl Pearson, 1857-1936): 최초의 통계학과 교수로 기술통계학 발전에 크게 기여
  • 로널드 피셔 (Ronald Fisher, 1890-1962): 추론통계학의 아버지로 불리며 현대 통계학의 기초를 확립
  • 프랜시스 골턴 (Francis Galton, 1822-1911): 상관관계와 회귀분석의 개념을 도입

현대적 활용 #

현대 데이터 과학에서 기술통계학은 다음과 같이 활용된다:

  • 탐색적 데이터 분석 (EDA): 데이터 분석의 첫 단계로 데이터의 특성 파악
  • 데이터 품질 평가: 결측값, 이상치, 데이터 분포 확인
  • 보고서 작성: 분석 결과를 이해관계자에게 효과적으로 전달
  • 기계학습 전처리: 모델링 전 데이터의 특성 이해

기술통계학은 모든 통계 분석의 출발점이며, 데이터를 올바르게 이해하고 해석하기 위한 필수적인 도구이다.