통계

비모수 데이터에서 t-test를 진행하게 되면?

쉼터장 2025. 2. 26. 19:32

비모수 데이터셋에서 t-검정 (t-test) 을 사용하면 다음과 같은 문제가 발생할 수 있습니다. 

  1. 정규성 가정 위배
    • t-검정은 정규 분포를 가정하는데, 비모수 데이터(즉, 정규성을 따르지 않는 데이터)에 적용하면 결과가 신뢰할 수 없을 수 있음.
    • 특히, 샘플 크기가 작을 경우 정규성 위반이 분석 결과에 큰 영향을 줄 수 있음.
    • 실제보다 더 작은 p-value가 나올 수 있음. -> 유의하지 않은 차이를 유의하다고 판단할 수 있음! 
  2. 이상치에 취약
    • t-검정은 평균과 표준편차를 기반으로 하기 때문에 이상치(outlier)의 영향을 크게 받을 수 있음.
    • 비모수 데이터는 종종 이상치가 많거나 분포가 치우쳐 있는 경우가 많아 t-검정을 적용하면 왜곡된 결과가 나올 수 있음.
    • 만약 이상치가 있다면 두 그룹의 차이가 과장 될 수 있음. 결국 실제로 차이가 없는데도 통계적으로 유의한 차이라고 오판할 위험이 있음! 
  3. 분산 동질성 문제 (독립 표본 t-검정의 경우)
    • t-검정에서는 두 그룹의 분산이 동일하다는 가정(등분산 가정)이 필요함.
    • 비모수 데이터에서는 분산이 다를 가능성이 높아 이 가정을 위반할 가능성이 큼.
    • 분산이 다를 경우 웰치 t-검정(Welch's t-test) 을 사용해야 하지만, 여전히 정규성 가정은 필요함.

해결 방법

1. 샘플 크기가 충분히 크면 문제가 덜할 수 있음

  • 중심극한정리에 따르면 샘플 크기가 충분히 크면 정규성이 없어도 t-검정이 근사적으로 잘 작동할 가능성이 있음.

 

2. 비모수 데이터라면, 대신 비모수 검정(non-parametric test) 을 사용하는 것이 더 적절함!

  • 윌콕슨 순위합 검정 (Mann-Whitney U test) → 독립된 두 그룹 비교
  • 윌콕슨 부호순위 검정 (Wilcoxon signed-rank test) → 대응 표본(Paired) 비교
  • 크루스칼-왈리스 검정 (Kruskal-Wallis test) → 세 그룹 이상 비교

만약 데이터가 정규성을 따르는지 확인하고 싶다면 Shapiro-Wilk test 또는 Kolmogorov-Smirnov test 를 사용할 수도 있음.