산점도

산점도 (Scatter Plot) #

산점도는 두 개의 연속형 변수 간의 관계를 시각적으로 나타내는 데이터 시각화 방법으로, 각 데이터 포인트를 좌표평면 상의 점으로 표현한다. 영어로는 Scatter Plot, Scatter Chart, 또는 Scatter Diagram이라고 부르며, 변수 간의 상관관계와 패턴을 탐색하는 데 가장 기본적이고 효과적인 도구다.

산점도 예시

산점도의 정의와 구조 #

산점도는 다음과 같은 구조로 이루어져 있다:

1. 수평축 (X축)

  • 독립변수(Independent Variable) 또는 설명변수
  • 원인이 되는 변수나 먼저 측정되는 변수
  • 연속형 수치 데이터로 구성

2. 수직축 (Y축)

  • 종속변수(Dependent Variable) 또는 반응변수
  • 결과가 되는 변수나 예측하고자 하는 변수
  • 연속형 수치 데이터로 구성

3. 데이터 포인트 (Data Points)

  • 각 관측값을 나타내는 점
  • (x, y) 좌표로 표현되는 개별 데이터
  • 점의 위치가 두 변수의 값을 동시에 나타냄

4. 패턴과 추세선

  • 점들의 전체적인 분포 패턴
  • 필요시 회귀선이나 추세선 추가
  • 상관관계의 방향과 강도 시각화

산점도의 주요 특징과 장점 #

1. 상관관계 탐지

  • 두 변수 간의 선형 또는 비선형 관계 파악
  • 양의 상관관계, 음의 상관관계, 무상관 식별
  • 상관관계의 강도와 방향 시각적 확인

2. 이상치 발견

  • 일반적인 패턴에서 벗어난 특이한 데이터 포인트 식별
  • 데이터 품질 문제나 특별한 사례 발견
  • 분석 결과에 미치는 영향 평가

3. 패턴 인식

  • 선형, 곡선형, 군집형 등 다양한 패턴 인식
  • 데이터의 분포와 집중도 파악
  • 숨겨진 구조나 그룹 발견

4. 가설 생성과 검증

  • 변수 간 관계에 대한 가설 생성
  • 이론적 예측과 실제 데이터 비교
  • 추가 분석 방향 제시

산점도의 활용 분야와 사례 #

1. 과학 연구

  • 실험 변수와 결과 변수 간의 관계 분석
  • 물리적, 화학적 현상의 상관관계 연구
  • 생물학적 지표 간의 연관성 탐구

2. 경제 및 비즈니스

  • 광고비와 매출액의 관계 분석
  • 가격과 수요량의 상관관계 연구
  • 경제지표 간의 연관성 분석

3. 의학 및 보건

  • 약물 용량과 치료 효과의 관계
  • 생활습관과 건강지표의 상관관계
  • 환경 요인과 질병 발생률의 연관성

4. 교육 및 심리학

  • 학습시간과 성적의 관계 분석
  • 심리적 요인과 행동 패턴의 상관관계
  • 교육 방법과 학습 효과의 연관성

상관관계의 유형과 해석 #

1. 선형 상관관계

  • 양의 선형 상관: 한 변수가 증가하면 다른 변수도 증가
  • 음의 선형 상관: 한 변수가 증가하면 다른 변수는 감소
  • 무상관: 두 변수 간에 뚜렷한 선형 관계가 없음

2. 비선형 상관관계

  • 곡선형 관계: 포물선, 지수함수, 로그함수 형태
  • 주기적 관계: 반복적인 패턴을 보이는 관계
  • 복합적 관계: 여러 패턴이 혼재된 복잡한 관계

3. 상관관계의 강도

  • 강한 상관관계: 점들이 직선에 가깝게 분포
  • 중간 상관관계: 점들이 어느 정도 흩어져 있지만 패턴 존재
  • 약한 상관관계: 점들이 넓게 흩어져 있어 패턴이 불분명

산점도의 종류와 변형 #

1. 기본 산점도 (Simple Scatter Plot)

  • 두 변수 간의 관계를 표현하는 가장 기본적인 형태
  • 단일 색상과 모양의 점 사용

2. 그룹별 산점도 (Grouped Scatter Plot)

  • 세 번째 범주형 변수에 따라 점의 색상이나 모양 구분
  • 여러 그룹 간의 관계 패턴 비교 분석
  • 범례를 통한 그룹 식별

3. 버블 차트 (Bubble Chart)

  • 점의 크기로 세 번째 연속형 변수 표현
  • 세 개 변수 간의 관계를 동시에 시각화
  • 점의 위치와 크기로 다차원 정보 전달

4. 3D 산점도 (3D Scatter Plot)

  • 세 개의 연속형 변수를 3차원 공간에 표현
  • 복잡한 다변량 관계 시각화
  • 회전과 확대/축소를 통한 다각도 관찰

산점도 작성 시 주의사항 #

1. 축 설정과 스케일

  • 적절한 축 범위 설정으로 데이터 패턴 강조
  • 두 축의 스케일 비율 고려
  • 필요시 로그 스케일 사용 검토

2. 점의 표현

  • 적절한 점의 크기와 투명도 설정
  • 데이터 포인트가 많을 경우 겹침 방지
  • 색상과 모양을 활용한 그룹 구분

3. 추세선과 통계 정보

  • 회귀선 추가로 관계의 방향과 강도 명시
  • 상관계수(r) 값 표시로 정량적 정보 제공
  • 신뢰구간이나 예측구간 표시 고려

4. 레이블과 제목

  • 명확한 축 레이블과 단위 표시
  • 데이터의 출처와 수집 기간 명시
  • 해석에 도움이 되는 설명 추가

산점도 해석 시 주의점 #

1. 상관관계와 인과관계 구분

  • 상관관계가 있다고 해서 반드시 인과관계는 아님
  • 제3의 변수가 두 변수에 동시에 영향을 미칠 수 있음
  • 추가적인 분석과 이론적 근거 필요

2. 이상치의 영향

  • 극단값이 전체 패턴에 미치는 영향 평가
  • 이상치 제거 전후의 상관관계 비교
  • 이상치의 원인과 의미 분석

3. 비선형 관계의 간과

  • 선형 상관계수만으로는 비선형 관계 탐지 어려움
  • 시각적 패턴 확인의 중요성
  • 필요시 변수 변환이나 비선형 모델 고려

고급 산점도 기법 #

1. 산점도 행렬 (Scatter Plot Matrix)

  • 여러 변수 간의 모든 쌍별 관계를 동시에 표시
  • 다변량 데이터의 전체적인 관계 구조 파악
  • 변수 선택과 모델링에 유용한 정보 제공

2. 조건부 산점도 (Conditional Scatter Plot)

  • 특정 조건이나 범위에서의 관계 분석
  • 패널이나 면분할을 통한 조건별 비교
  • 상호작용 효과나 조절 변수의 영향 탐색

3. 밀도 산점도 (Density Scatter Plot)

  • 점의 밀도를 색상이나 등고선으로 표현
  • 대용량 데이터에서 분포 패턴 시각화
  • 겹치는 점들의 문제 해결

산점도와 다른 시각화 방법과의 비교 #

산점도 vs 선그래프

  • 산점도: 두 변수 간의 관계, 순서 무관
  • 선그래프: 시간에 따른 변화, 순서 중요

산점도 vs 히트맵

  • 산점도: 개별 데이터 포인트 표시, 정확한 값 확인
  • 히트맵: 집계된 데이터, 전체적인 패턴 강조

산점도 vs 박스플롯

  • 산점도: 연속형 변수 간의 관계
  • 박스플롯: 범주별 연속형 변수의 분포 비교

실제 활용 예시 #

예시 1: 광고비와 매출의 관계

  • X축: 월별 광고비 (만원)
  • Y축: 월별 매출액 (만원)
  • 양의 상관관계 확인 및 투자 효율성 분석

예시 2: 키와 몸무게의 관계

  • X축: 키 (cm)
  • Y축: 몸무게 (kg)
  • 선형 관계 확인 및 BMI 계산 기준 검토

예시 3: 온도와 아이스크림 판매량

  • X축: 일평균 기온 (°C)
  • Y축: 일별 아이스크림 판매량 (개)
  • 계절적 요인과 소비 패턴 분석

참고자료 #