AI/LLM

[Evaluation] 모델의 성적표

jumemory 2025. 8. 13. 17:08

드디어 로드맵의 완성 단계인 [21단계: Evaluation] 모델의 성적표에 도달했습니다. 모델을 만들고 서빙까지 했다면, 이제 이 모델이 정말 "일을 잘하는지" 객관적으로 검증할 차례입니다. LLM은 정답이 정해져 있지 않은 경우가 많아 평가가 매우 까다로운데, 이를 해결하는 현대적인 평가 체계들을 정리해 드립니다.

[LLM 컨셉] Evaluation: 주관적인 AI를 객관적으로 측정하는 법

**LLM 평가(Evaluation)**는 모델이 내놓은 답변의 품질을 수치화하는 과정입니다. 전통적인 머신러닝의 정확도(Accuracy)만으로는 문장 속에 담긴 논리, 뉘앙스, 사실 여부를 판단할 수 없기 때문에 더 고차원적인 지표들이 사용됩니다.

1. 전통적인 벤치마크 (Static Benchmarks)

모델의 기초 체력을 테스트하기 위해 미리 정해진 문제 은행을 푸는 방식입니다.

MMLU (Massive Multitask Language Understanding): 인문학, 사회과학, STEM 등 57개 주제의 상식을 묻는 시험입니다. 모델의 전반적인 지식 수준을 나타냅니다.
GSM8K: 초등학교 수준의 수학 문장제 문제입니다. 모델의 단계별 추론(Reasoning) 능력을 측정합니다.
HumanEval / MBPP: 코딩 능력을 평가합니다. 실제로 코드를 실행해 보고 결과가 맞는지 확인합니다.

2. 텍스트 유사도 지표 (N-gram 기반)

정답지(Reference)와 모델의 답변이 얼마나 겹치는지 계산합니다. 주로 번역이나 요약 성능을 볼 때 씁니다.

BLEU (Bilingual Evaluation Understudy): 번역 성능 측정의 표준입니다. 정답 문장과 단어들이 얼마나 일치하는지 봅니다.
ROUGE (Recall-Oriented Understudy for Gisting Evaluation): 요약 성능 측정에 주로 쓰이며, 정답에 포함된 핵심 단어들을 모델이 얼마나 빠짐없이 포함했는지(재현율)를 중시합니다.

3. 새로운 표준: LLM-as-a-Judge

최근 가장 많이 쓰이는 방식입니다. "사람처럼 글의 품질을 판단할 수 있는 **더 똑똑한 AI(예: GPT-4o)**에게 하위 모델의 답변을 채점하게 하는 것"입니다.

MT-Bench / AlpacaEval: 질문에 대한 답변을 보고 점수(1~10점)를 매기거나, 두 모델의 답변 중 어느 것이 더 자연스러운지 승패를 가립니다.
장점: 정답지가 없어도 문맥, 톤, 창의성 등 주관적인 요소를 평가할 수 있습니다.
단점: 채점관인 LLM 자체가 가진 편향(Bias)이 점수에 반영될 수 있습니다.

4. RAG 전용 평가: RAGAS 프레임워크

RAG(검색 증강 생성) 시스템은 별도의 평가 지표가 필요합니다. 검색(Retrieval)과 생성(Generation)의 연결 고리를 세분화해서 평가해야 하기 때문입니다.

Faithfulness (충실성): 답변이 검색된 문서의 내용에만 근거하고 있는가? (환각 확인)
Answer Relevance (답변 관련성): 답변이 사용자의 질문에 적절하게 대응하는가?
Context Precision (맥락 정밀도): 검색된 문서들이 실제로 질문에 도움이 되는 정보였는가?

5. [선생님의 심화 보충] Evals는 '지속적인 프로세스'입니다

평가는 모델 출시 전에 한 번 하고 끝내는 것이 아닙니다.

Unit Tests: 프롬프트를 바꿀 때마다 성능이 떨어지지 않는지 체크합니다.
A/B Testing: 실제 사용자에게 두 가지 모델의 답변을 보여주고 어떤 것을 더 많이 선택하는지 확인합니다.
Red Teaming: 모델이 위험한 답변을 하도록 의도적으로 유도하여 안전성을 테스트합니다.

✍️ 로드맵을 마치며

축하합니다! 앙상블 학습부터 시작해 모델의 탄생(Pre-training), 훈련(SFT/RLHF), 최적화(LoRA/Quantization), 실무 적용(RAG/Agent), 그리고 마지막 검증(Evaluation)까지 LLM의 거대한 지도를 함께 완주하셨습니다.

- 오토인코더

비지도학습 입력 데이터를 압축시킨 후 다시 원래의 입력으로 복원

1.인코더- 숨겨진표현, 잠재의식, 핵심적 특징

2디코더- 원래 데이터로 최대한 비슷하게 복원

입력풋 아웃풋이 동일한 구조

종류

잡음 제거

변이형

합성곱

활용분야

차원축소이상탐지이미지 생성이미지 노이즈 제거

kr발산 손실함수로 이용 (코스트펑션=로스펑션)분포가 완전히 동일할수록 0에 가까움-> 변이형 오토 인코더 강화학습에 활용

오토인코더 다음 모델 겐(GAN)

겐(GAN) 알고리즘 활용

주고받으면서 오류 수정

상수가 들어간 변수는 대문자 이용하는 규칙..

디퓨전 모델 노이즈를 없애는 방식

uv: 빠르고 가벼운 파이썬 환경/패키지 관리 툴

'AI > LLM' 카테고리의 다른 글

[Multimodal] 글자 그 너머로 (0)	2025.08.19
[Guardrails] 안전한 AI 설계 (0)	2025.08.14
[Serving] 고속 추론 서빙 (0)	2025.08.12
[Quantization] 모델 경량화 (0)	2025.08.11
[MCP] LLM의 만능 커넥터 (0)	2025.08.08

현재글[Evaluation] 모델의 성적표

jumemory 님의 블로그

[Evaluation] 모델의 성적표

[LLM 컨셉] Evaluation: 주관적인 AI를 객관적으로 측정하는 법

1. 전통적인 벤치마크 (Static Benchmarks)

2. 텍스트 유사도 지표 (N-gram 기반)

3. 새로운 표준: LLM-as-a-Judge

4. RAG 전용 평가: RAGAS 프레임워크

5. [선생님의 심화 보충] Evals는 '지속적인 프로세스'입니다

✍️ 로드맵을 마치며

'AI > LLM' 카테고리의 다른 글

'AI/LLM'의 다른글

티스토리툴바

[Evaluation] 모델의 성적표

[LLM 컨셉] Evaluation: 주관적인 AI를 객관적으로 측정하는 법

1. 전통적인 벤치마크 (Static Benchmarks)

2. 텍스트 유사도 지표 (N-gram 기반)

3. 새로운 표준: LLM-as-a-Judge

4. RAG 전용 평가: RAGAS 프레임워크

5. [선생님의 심화 보충] Evals는 '지속적인 프로세스'입니다

✍️ 로드맵을 마치며

'AI > LLM' 카테고리의 다른 글

'AI/LLM'의 다른글

관련글

티스토리툴바