AI/LLM

[RLHF] 인간의 가치 정렬

jumemory 2025. 7. 25. 17:49

 

[LLM 컨셉] RLHF: AI에게 인간의 마음을 가르치다

**RLHF (Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)**는 모델의 답변을 사람이 직접 평가하고, 그 피드백을 바탕으로 모델이 '더 사랑받는 답변'을 하도록 훈련하는 기법입니다. SFT가 '모범 답안을 외우는 공부'라면, RLHF는 **'실전에서 칭찬받으며 센스를 키우는 과정'**에 가깝습니다.


1. 왜 RLHF가 필요한가? (Alignment의 중요성)

SFT만 거친 모델은 가끔 질문자의 의도를 오해하거나, 사실이 아닌 내용을 그럴듯하게 말하고(Hallucination), 때로는 위험한 정보를 제공하기도 합니다.

  • 인간의 선호도 반영: 정답이 딱 정해져 있지 않은 질문(예: "더 재미있게 말해줘")에서 어떤 답변이 더 좋은지 모델 스스로 판단하게 합니다.
  • 안전성과 윤리: 편향된 발언이나 위험한 지시(예: "폭탄 만드는 법 알려줘")에 대해 거절하거나 우회하는 법을 배웁니다.
  • 정렬(Alignment): 인공지능의 목표를 인류의 가치 및 의도와 일치시키는 핵심 기술입니다.

2. RLHF의 3단계 프로세스

RLHF는 크게 세 가지 과정을 거쳐 완성됩니다.

① 보상 모델 학습 (Reward Model Training)

사람이 모델이 내놓은 여러 개의 답변 후보(A, B, C, D)를 보고 순위를 매깁니다. 이 데이터를 학습하여 **"어떤 답변이 좋은 답변인지 점수를 매기는 판사 모델(Reward Model)"**을 만듭니다.

② 강화학습 수행 (PPO 알고리즘 등)

본체인 언어 모델이 답변을 생성하면, 방금 만든 '판사 모델'이 점수를 줍니다. 모델은 높은 점수(보상)를 받기 위해 자신의 답변 방식을 계속해서 수정합니다. 주로 **PPO(Proximal Policy Optimization)**라는 알고리즘이 사용됩니다.

③ 반복 및 최적화

이 과정을 반복하며 모델은 인간이 좋아하는 답변의 '뉘앙스'를 완벽하게 체득하게 됩니다.


3. RLHF의 핵심 지표: 3H

RLHF를 통해 모델이 추구하게 되는 세 가지 주요 가치는 다음과 같습니다.

  1. Helpfulness (유용성): 사용자의 질문에 얼마나 도움이 되는 답을 하는가?
  2. Honesty (정직성): 사실에 근거한 답을 하는가? 모르는 것은 모른다고 하는가?
  3. Harmlessness (무해성): 위험하거나 편향된 내용을 포함하지 않는가?

4. RLHF의 한계와 대안

강화학습은 매우 강력하지만 비용과 관리가 어렵다는 단점이 있습니다.

  • 고비용: 수많은 사람(Human Annotators)이 일일이 답변 순위를 매겨야 하므로 막대한 인건비가 듭니다.
  • 복잡성: 강화학습 알고리즘 자체가 매우 민감하여 학습이 불안정할 때가 많습니다.
  • 대안 기법 (DPO): 최근에는 복잡한 보상 모델 없이도 선호도 데이터를 직접 학습하는 DPO(Direct Preference Optimization) 기법이 등장하여 RLHF를 대체하거나 보완하고 있습니다.

[Image comparing RLHF with DPO (Direct Preference Optimization) architecture]


5. [선생님의 심화 보충] 모델의 성격이 결정되는 시점

우리가 ChatGPT나 클로드(Claude)를 쓸 때 느껴지는 특유의 '말투'나 '친절함'은 대부분 이 RLHF 단계에서 결정됩니다. 특정 기업이 어떤 가치관을 가진 사람들에게 평가를 맡겼느냐에 따라 모델의 성향이 달라지는 것이죠. 즉, RLHF는 기술적인 최적화를 넘어 AI에게 철학을 입히는 과정이라고 볼 수 있습니다.


✍️ 공부를 마치며

RLHF는 거대 언어 모델이 단순한 '텍스트 생성기'를 넘어 '신뢰할 수 있는 비서'로 진화하게 만든 일등 공신입니다. 이제 모델은 지식(Pre-training), 대화법(SFT), 그리고 센스(RLHF)까지 갖추었습니다.

 

 

'AI > LLM' 카테고리의 다른 글

[PEFT 2] 양자화 튜닝 QLoRA  (3) 2025.07.30
[PEFT 1] 효율적 튜닝 LoRA  (0) 2025.07.29
[SFT] 지시어 이행 학습  (0) 2025.07.24
[Pre-training] 거대한 지식의 축적  (0) 2025.07.23
[Tokenizer] 언어를 쪼개는 기술  (0) 2025.07.22