기술통계 - Descriptive statistics

자료를 그래프나 숫자등으로 요약하는 통계적 행위 및 관련 방법을 기술 통계라고 한다.

“어떤 것을 문서에 기술한다”할 때의 그 기술이다. 일반적인 기술(technique)을 말하는 것이 아니므로 주의한다. 통계에 대한 기초 이해가 없는 사람들은 기술 통계라고 하면 기술 기반의 통계라고 이해하기 쉬운데 모든 통계는 기술(techinique) 기반이다.

기술통계는 데이터를 요약하고 시각화해서 잘 설명하는 것이 중점을 두며 데이터에 대해서 쉽게 설명하기 위해서 시각화를 많이 활용한다. 기술 통계에서 기본적으로 사용하는 것은 도수분포표와 히스토그램, 박스플롯등이 있으며 이를 기반으로 사실을 객관적으로 확인하는 것을 중점으로 한다.

도수분포표

도스분포표(frequency distribution)는 여러 계급의 도수를 겹치지 않게 표로 요약한 것을 말한다. 빈도표 자체는 시각화라고 할 수 없지만 빈도표는 시각화하기 매우 쉽고 분포를 확인하는데 매우 편리하다.

누적도수분포표

정량자료에 대해 도수분포표를 누적으로 표현한 것이다. 누적은 확률계산을 할 때 편리하다.

교차표 (crosstabulation)

두변수에 관한 자료를 요약하는 표를 말한다.

심슨의 역설 (Simpson’s Paradox)

두 개 이상의 교차표로 부터 파생교차표를 만드는 경우 결합교차표와 비결합교차표에서 동일한 문제에 대해 각각 상반된 결론을 내는 오류를 범하는 것

변동성 척도

변동성을 확인하는 가장 기초적인 방법은 범위(range)이다. 범위(range)는 최대값에서 최소값을 뺀 값이다. 하지만 범위값은 극단값의 영향을 크게 받으므로 주의해야 한다.