본문 바로가기
파이썬

상관계수(Correlation Coefficient): 단위의 벽을 넘는 관계의 지표

by hyeongcheol 2026. 3. 6.

공분산은 두 변수의 관계 방향을 알려주지만, 값의 크기가 측정 단위에 의존한다는 한계가 있습니다. 이러한 불편함을 해결하기 위해 공분산을 각 변수의 표준편차로 나누어 표준화한 것이 바로 상관계수입니다.

1. 피어슨 상관계수 (Pearson Correlation Coefficient)

일반적으로 가장 널리 쓰이는 지표로, 두 변수 간의 선형적 관계가 얼마나 강한지를 나타냅니다.

  • 정의 및 수식: 공분산을 두 변수의 표준편차의 곱으로 나눕니다.
    r = Cov(X, Y) / (σX * σY)
  • 특징:
    • 값의 범위는 항상 -1에서 1 사이입니다.
    • 1에 가까울수록 강한 양의 선형 관계, -1에 가까울수록 강한 음의 선형 관계를 의미합니다.
  • 주의사항: 이상치(Outlier)에 민감하며, 두 변수가 직선 형태의 관계를 가질 때만 유효합니다.

2. 스피어만 상관계수 (Spearman Rank Correlation Coefficient)

데이터의 실제 값 대신 **'순위(Rank)'**를 사용하여 관계를 측정합니다. 데이터가 서열 척도이거나 비선형적인 단조 관계를 보일 때 유용합니다.

가. 순위에 중복이 없는 경우 (간편식)

데이터들 사이에 같은 값이 없을 때 사용하는 공식입니다.

rₛ = 1 - (6 * Σd²) / (n * (n² - 1))

  • d (difference): X순위와 Y순위의 차이
  • n: 데이터의 개수

나. 순위에 중복(동순위)이 있는 경우

실무 데이터에서는 같은 점수가 나오는 경우가 많습니다. 이때는 위의 간편식을 사용하면 오차가 발생할 수 있으므로, 다음과 같은 '평균 순위' 방식을 적용합니다.

  1. 평균 순위 부여: 동일한 값을 가진 데이터들에게 그들이 차지할 순위들의 평균값을 부여합니다.
    • 예: 2위와 3위가 같은 점수라면 둘 다 2.5위로 처리합니다.
  2. 피어슨 공식 적용: 이렇게 변환된 순위 값들을 숫자 데이터로 간주하고, 피어슨 상관계수 공식을 그대로 적용하여 계산합니다.
    rₛ = Cov(RankX, RankY) / (σRankX * σRankY)

3. 피어슨 vs 스피어만 비교 요약

구분 피어슨(Pearson) 스피어만(Spearman)
핵심 개념 값 사이의 선형적 관계 순위 사이의 일관성
관계 형태 직선(Linear) 관계 측정 단조(Monotonic) 관계 측정
이상치 영향 매우 민감함 비교적 강건함(Robust)
동순위 처리 해당 없음 평균 순위 부여 후 피어슨 방식 적용

 

Pearson vs. Spearman
Pearson vs. Spearman

 


4. 분석가의 관점: 산점도 확인의 중요성

상관계수라는 숫자 하나에만 의존하지 말고, 반드시 산점도(Scatter Plot)를 그려 데이터의 전체적인 분포를 눈으로 확인해야 합니다. 상관계수가 높다고 해서 반드시 인과관계가 있는 것은 아니며, 제3의 변수가 숨어 있을 가능성을 항상 염두에 두어야 합니다.


 

반응형