데이터 - data #
원소(element)는 자료의 수집대상이 되는 것을 말한다. 예시: 한 반의 학생 각각이 원소가 될 수 있다.
변수(variable)는 원소에서 관심의 대상이 되는 구체적인 특성을 말한다. 기계학습에서는 자질(feature)이라고 한다. 예시: 학생의 키, 몸무게, 성별, 성적 등이 변수이다.
모든 원소들에 대해서 각각의 변수들을 측정한 것을 관측치(observation)이라고 한다. 예시: 한 학생의 키가 170cm, 몸무게가 60kg, 성별이 남성, 수학 점수가 90점이라면, 이 네 가지 값이 한 관측치가 된다.
데이터의 종류 #
- 정성적 자료(qualitative data): 원소의 특징을 나타내기 위해 이름이나 기호를 사용한다.
- 예시: 혈액형(A, B, AB, O), 성별(남, 여), 지역(서울, 부산 등)
- 정량적 자료(quantitative data): 얼마나 많은가 또는 얼마나 큰가를 표현하기 위해 숫자를 사용한다.
- 예시: 키(170cm), 나이(25세), 시험 점수(85점)
정량적 자료는 다시 이산형(예: 학생 수)과 연속형(예: 키, 몸무게)으로 나눌 수 있다.
측정단위 #
- 명목척도(nominal scale): 이름이나 기호를 이용해 표기한 변수값. 순서가 없음. (예: 혈액형, 성별)
- 순서척도(ordinal scale): 명목자료이면서 순서가 있음. (예: 학점(A, B, C, D, F), 만족도(매우만족, 만족, 보통, 불만족))
- 구간척도(interval scale): 순서자료의 특성을 가지며 값들의 차이가 고정된 단위로 표현됨. 0의 의미가 없음. (예: 온도(섭씨), 연도)
- 비율척도(ratio scale): 순서특성을 가지며 두 값의 비율이 의미가 있음. 0이 절대적 의미. (예: 키, 몸무게, 나이, 소득)
데이터 수집 방법 #
- 관측조사(observational study): 연구자가 개입하지 않고 자연스럽게 관찰하여 자료를 수집. (예: 설문조사, 인구조사)
- 실험조사(experimental study): 연구자가 조건을 조작하여 결과를 관찰. (예: 신약 임상시험, 교육 방법 비교 실험)
데이터의 중요성 및 활용 #
데이터는 과학, 산업, 사회 등 다양한 분야에서 의사결정의 근거로 활용된다. 데이터 분석을 통해 패턴을 발견하고, 예측 모델을 만들며, 정책 수립이나 비즈니스 전략 수립에 중요한 역할을 한다.
참고 #
- 데이터의 품질(정확성, 신뢰성, 일관성 등)은 분석 결과에 큰 영향을 미치므로, 데이터 수집과 관리가 매우 중요하다.
통계조사 #
관측조사(observational study)와 실험조사(experimental study)로 구분할 수 있다.