⚠️ LLM을 평가자로 쓸 때 주의해야 할 편향들.

AI•2025년 12월 9일•한국어

위치 편향 (Position Bias) - 모델이 첫 번째로 제시된 답변을 더 선호하는 경향이 있습니다. 순서를 바꿔서(A vs B, B vs A) 두 번 물어보고 다수결을 따르는 식으로 해결합니다.
서술 편향 (Verbosity Bias) - 내용보다 단순히 길고 자세한 답변을 선호하는 경향입니다. 가이드라인에 명시하거나 길이에 대한 페널티를 주어야 합니다.
자기 고양 편향 (Self-enhancement Bias) - 모델이 자신이 생성한 답변을 더 선호하는 현상입니다.

"모델이 그런 문장을 생성했다는 건, 확률적으로 그게 가장 좋은 답변이라고 생각했다는 뜻이겠죠. 그래서 평가할 때도 자기와 비슷한 스타일을 선호하게 됩니다. 이를 피하려면 생성 모델과 평가 모델을 다른 것을 쓰는 게 좋습니다."