AI/Machine Learning

평가지표와 통계적 판단

jumemory 2025. 6. 22. 15:53

내 모델은 정말 '진짜'일까?

모델을 학습시켰다면 이제 점수를 매길 차례입니다. 하지만 시험 성적이 좋다고 해서 반드시 실무에서 잘하는 것은 아닙니다. 데이터의 결측치를 어떻게 메웠는지, 불균형한 상황에서 어떤 지표를 선택했는지에 따라 모델의 신뢰도가 결정됩니다.


1. 분류 모델의 성적표: 혼동 행렬(Confusion Matrix)

불균형 데이터(Imbalance Class) 문제를 해결하려면 단순 정확도(Accuracy) 너머의 지표를 봐야 합니다.

지표 설명 비유
정밀도(Precision) 모델이 '참'이라 예측한 것 중 실제 '참'인 비율 스팸 메일 분류 (중요 메일을 스팸으로 걸러내면 안 됨)
재현율(Recall) 실제 '참'인 것 중 모델이 '참'이라 맞춘 비율 암 진단 (실제 환자를 놓치면 치명적임)
F1-Score 정밀도와 재현율의 조화 평균 두 지표가 균형을 이룰 때 높은 점수
ROC-AUC 임계값을 바꿔가며 측정한 모델의 분류 성능 지표 분류 성능이 우수할수록 1에 가까움

2. 회귀 모델의 성적표: 오차의 크기 측정

숫자를 예측하는 회귀 문제에서는 예측값과 실제값의 '거리'를 측정합니다.

  • MSE (Mean Squared Error): 오차를 제곱하여 평균한 값입니다.
  • RMSE (Root MSE): MSE에 루트를 씌워 단위 크기를 맞춘 값입니다.
  • $R^2$ (결정계수): 모델이 데이터를 얼마나 잘 설명하는지 나타내는 지표입니다.
  • 조정된 $R^2$ (Adjusted $R^2$): 변수가 많아질수록 점수가 억지로 높아지는 한계를 보정한 지표입니다.

3. 모델 검증의 정석: 교차 검증 (Cross Validation)

데이터가 적을 때, 특정 부분만 공부해서 생기는 편향을 막는 기법입니다.

  • K-Fold CV: 데이터를 K개로 쪼개서 번갈아 가며 검증합니다.
  • Stratified K-Fold: 분류 문제에서 정답(Label)의 비율이 학습과 검증 세트에서 일정하게 유지되도록 쪼개는 방식입니다.
  • 하이퍼파라미터 튜닝: GridSearchCV나 RandomSearchCV를 교차 검증과 함께 사용하여 최적의 환경 설정을 찾습니다.
    • Grid Search: 모든 조합을 시도하여 정확하지만 느립니다.
    • Random Search: 무작위 조합을 시도하여 상대적으로 빠릅니다.

5. XAI와 해석 가능한 AI

**XAI (설명 가능한 AI)**는 모델이 왜 그런 예측을 했는지 해석하는 분야입니다.

  • 피처 중요도(Feature Importance): 어떤 변수가 예측에 가장 큰 기여를 했는지 파악합니다.
  • 의의: 단순한 예측을 넘어 모델의 **설명 가능성(Interpretability)**이 중요한 실무 환경(의료, 금융 등)에서 필수적입니다.

✍️ 공부를 마치며

실무에서 모델을 만들면 반드시 Imbalance Class(데이터 불균형) 문제에 직면합니다. 이때 단순히 정확도만 보는 게 아니라 Confusion Matrix를 통해 정밀도와 재현율 중 무엇을 챙길지 결정하는 '통계적 판단'이 모델의 성패를 가릅니다.

'AI > Machine Learning' 카테고리의 다른 글

앙상블 학습 (Ensemble)  (0) 2025.06.24
과적합과 규제 (L1/L2)  (0) 2025.06.23
전처리와 분석  (0) 2025.06.21
경사하강법 (최적화)  (0) 2025.06.20
지도학습 Ⅱ (분류)  (0) 2025.06.19