Build Hour: 강화 학습 기반 파인튜닝(RFT) 완벽 해설

이 영상은 강화 학습 기반 파인튜닝(RFT)의 개념, 실제 활용법, 데모, 그리고 현업 적용 사례와 Q&A까지 다루는 OpenAI의 실시간 워크샵입니다. 전문가들이 직접 RFT의 이론적 장점과 실제 워크플로우를 공개하고, 적은 데이터로 효율적으로 모델을 강화하는 방법에 초점을 맞춥니다. 또한 실제 고객사(Accordance)의 세무 업무 최적화 사례와 실전적인 베스트 프랙티스도 함께 다룹니다.

1. Build Hour 및 RFT 소개

이 워크샵은 OpenAI의 Build Hour 프로그램의 일환으로, 스타트업 및 AI 분야 종사자들이 OpenAI API와 모델을 최대한 잘 활용할 수 있도록 실전 도구, 팁, 베스트 프랙티스를 소개하는 목적을 갖고 있습니다. 진행은 Christine과, RFT를 직접 다뤄온 Prashant, Theo가 맡았습니다.

먼저 Build Hour의 목표를 명확히 밝힙니다:

"Build Hour의 목표는 OpenAI API와 모델을 활용해 회사를 스케일업하는 데 필요한 최고의 노하우, 도구, AI 전문성을 제공해드리는 것입니다."

오늘의 주제는 Reinforcement Fine-Tuning(강화 학습 기반 파인튜닝, 이하 RFT)이며, 이 시간 동안 다루는 주요 흐름을 미리 짚어줍니다.

"먼저 RFT에 대한 소개, 최적화 및 세부 이점, 실제 태스크 설정, 라이브 데모(코드 레포도 공유), 그리고 최신 고객 사례와 Q&A까지 준비했습니다."

2. 파인튜닝 옵션과 RFT의 특장점

파인튜닝의 '지식' vs '추론 방식' 분리

LLM의 성능 개선에는 모델이 '무엇을 아는가'와 '어떻게 생각하고 추론하는가'라는 두 방향성이 있습니다:

지식 보완: 프롬프트 엔지니어링, RAG 등
추론력 개선: 파인튜닝(Supervised, Preference, Reinforcement)

이 중에서도, 단순히 정보가 부족한 상황이라면 프롬프트/RAG 강화가 우선이고, 지식은 충분하지만 여전히 오답을 내거나 비효율적 추론이 반복된다면 파인튜닝이 필요하다고 강조합니다.

"파인튜닝은 투자입니다. 다른 방법을 최대한 다 써본 뒤에 마지막 수단으로 손에 잡으세요."

파인튜닝 3가지 방식

Supervised Fine-Tuning(지도 학습): 질문-정답 구조로 명확한 패턴 학습
Preference Fine-Tuning(선호도 기반): 좋은 답/나쁜 답 예시를 통해 스타일 선호 학습(챗봇, 마케팅 등)
Reinforcement Fine-Tuning(강화학습 기반, RFT): 정답라벨 대신 '자동채점기(Grader)'로 모델 출력에 등급 매기기

RFT의 특징은 다음과 같이 설명합니다:

"RFT는 더 이상 라벨링 데이터가 필요 없고, 소수의 예시만 있으면 복잡한 추론/정책 기준에 맞춰서 성능을 크게 향상할 수 있어요."

RFT가 각광받는 분야

정책 준수, 법률 추론, 의료코딩 등 복잡한 규칙이 필요한 추론형 태스크에 탁월함
적은 데이터(수십~수백 개)만으로도 훈련 및 개선 가능
대형 레이블 데이터 구축 부담/비용 제거

"팀들은 복잡한 정책 파이프라인을 단일 추론 에이전트로 대체하거나, 실제 정책 로직을 기반으로 컴플라이언스 체크에 RFT를 사용하고 있습니다."

3. RFT를 실제로 사용하는 구조와 샘플 효율성

RFT는 소수의 샘플만으로도 탁월한 효율을 내는 원리를 시각적으로 설명합니다.

"RFT에서는 한 샘플을 여러 번 샘플링해 각기 다른 추론경로를 탐색합니다. 각각의 경로(답안)에 등급을 부여하고, 결국 더 좋은 추론 경로를 모델 스스로 배우게 됩니다."

즉, 동일 입력에 대해 다양한 출력/추론 경로를 비교 채점하며, '무엇이 좋은 추론인지' 스스로 학습합니다.

"다른 파인튜닝은 1샘플 = 1정보 제공이지만, RFT는 한 샘플에서 수많은 추론 신호를 뽑아낼 수 있어 효율적입니다!"

4. 실전 예제: 법률 분류 태스크 준비 및 평가

데이터셋과 메트릭 정의

라이브 데모로 다룬 태스크는 유럽연합의 공식 법률분류(Eurovok level 1) 멀티라벨 분류입니다.

"법률 텍스트를 받아서, 21개 상위 법률 주제 카테고리들 중 어떤 것들이 해당하는지 예측하는 문제예요."

구체적 샘플, 데이터셋 구성방법, 그라운드 트루스 등도 명확하게 예시로 보여줍니다.

evaluator(평가기 = grader) 설계

Precision(정밀도): 예측한 답 중 몇 개나 실제로 정답인가?
Recall(재현율): 진짜 답을 얼마나 많이 찾아냈나?
F1 Score: 두 지표의 조화 평균

"RFT 시스템은 각 훈련 샘플마다 반드시 단일 채점점수(grade)가 필요하므로, F1처럼 하나의 스코어가 중요한 의미를 가집니다."

더불어, 표본 불균형(카테고리 간 빈도 차이)을 균형 맞추도록 데이터샘플링 전략을 적용하는 절차도 보여줍니다.

"불균형 데이터셋으로 학습하면, 모델이 흔한 카테고리만 예측해 점수가 인위적으로 높아지는 '리워드 해킹'이 발생할 수 있어요."

5. 실제 코드 기반 데모: 평가와 RFT 훈련

평가환경 구축

프롬프트 설계: 21개 클래스 이름 제공, 컨텍스트와 출력 포맷 명시, 사람이 읽고 이해하기 쉬운 명령문 설계
그레이더 코드: 파이썬으로 구현, 예외처리(모델 출력 포맷 불일치 대비) 포함
모델: O4 mini 사용, low reasoning effort(짧고 간단 추론) 설정으로 빠르고 저렴하게 수행

"학습에 쓴 프롬프트/그레이더/출력 포맷을 평가에도 그대로 재활용해야, 성능 비교가 올바르고 신뢰할 수 있습니다."

실전 성능 분석

다양한 하이퍼파라미터/체크포인트 비교, 각각에서 모델이 얼마나 추론을 '길게' 하며, 결과의 흔들림(분산)이 어떻게 변화하는지 시각화
훈련 데이터와 검증 데이터(실제 사용 환경 분포) 모두에서 F1 스코어 등 주요 지표를 트래킹

"모델이 시간이 지남에 따라 학습셋에선 오르막 곡선을 그리는 한편, 벨리데이션셋에선 너무 일찍 오버피팅하면 안 됩니다. 실제론 두 곡선이 같이 오르면 이상적이죠!"

"Precision만 과하게 올라가고 Recall이 떨어질 때는 모델이 정답만 콕 집어 예측하긴 하지만, 놓치는 게 많을 수 있죠. 이런 디테일까지 실시간으로 확인하게끔 설계됐습니다."

모델 개선 결과

GPT-4.1, 기본 O4 mini와 fine-tuned model 성능 직접 비교
fine-tuned 모델이 precision/recall 모두 개선, F1 점수에서 가장 뛰어난 성과

"실제 검증셋에서 zero-score(완전 오답샘플)가 사라지고, 평균/최대 점수 차이도 줄어듭니다. 즉, 보다 일관된 고품질 추론력으로 업그레이드됐다는 뜻이죠!"

6. 실전 사례: Accordance 세무 자동화에서의 RFT 적용

이번 섹션에서는 스타트업 Accordance의 CEO David가 등장하여 RFT의 실제 업무 적용 경험을 공유합니다.

세무 업무 최적화에 RFT 도입

복잡한 세무 규정, 최적화, 컴플라이언스 업무에 RFT 활용
RFT가 단순히 지식을 넣기보다는 '어떻게 생각하고 접근할지' 모델의 추론 프레임을 기른다는 점 강조

"RFT는 전문가들이 '객관적으로 맞다고 동의할 수 있는' 문제에 특히 유용합니다."

데이터와 평가기(Grader) 설계 전략

"수량보다 데이터 품질이 월등히 중요하며, 소규모(100~300개)로도 우수한 성능 가능"
Grader 설계 개념: 이산적, 연속적, 층화(stratifying)된 평가 방식의 중요성

"정답/오답(0/1)로만 평가하면 모델은 그냥 맞히려고 찍기도 하고, 맞혀도 제대로 추론했는지 알 수 없어요. 등급화된, 연속적인 평가 함수를 설계해야 바른 추론 경로(Reasoning Path)에 보상이 돌아갑니다."

"세무전략 최적화 같은 문제라면 '최적 납세액 대비 얼마나 근접했는가'처럼 연속적 점수화 설계도 가능"

실전 효과 및 전략

"실제 산업용 평가셋(TaxBench)에서 40% 이상의 성능 개선을 달성했어요. 그리고 RFT는 실험에 앞서, 프롬프트 최적화/RAG 등도 꼭 같이 실험해보고 들어가는 것이 중요합니다."

7. Q&A : 실전 고민, 베스트 프랙티스

대표 Q&A & 요점

Q: RFT에 적합한 태스크?
- 정확한 정답/선호가 존재하며, '추론형' 모델에 비로소 효과를 내는 문제에 RFT가 적합. 평가함수를 공식화, 연속화(수치 함수화)할 수 있을수록 베스트.
  
  "연속적(차등화된) 평가함수가 있을 때 RFT가 진가를 발휘합니다!"
Q: 데이터 품질/노이즈 문제?
- RFT는 샘플 하나하나에 추론경로 적립, 저품질 데이터 한두 개만 섞여도 치명적. 꼭 작은 양이라도 철저히 정제된 데이터만 쓸 것.
Q: 비용, 성능, 속도의 균형?
- 소형 모델(O4 mini)로도 대형 모델급 성능을 기대할 수 있어 RFT가 효과적인 투자임. 다만 훈련 및 실험 횟수·생산 트랜잭션량에 따라 투자 대비 회수효과에 유의.
Q: 챗봇 등 일관되지 않은 프롬프트/비구조적 응답의 경우?
- 잘 정제된 태스크 및 평가환경(그레이더, 출력 포맷, 데이터 정제)이 초석. 비정형적, 잡음 많은 환경이라면 먼저 안전하게 태스크 정의와 구조화부터.

그 외 RFT Workflow 정리:

샘플 데이터 소수라도 품질에 집착
고도화된 평가기(그레이더) 설계
프롬프트, 데이터, 평가기 모두 '실사용 환경'과 일치시키기
실험별 차트와 결과를 주의 깊게 모니터링·학습
반복실험을 통해 최적 세팅/시드/하이퍼파라미터 찾기

8. 마치며

이 워크샵은 강화 학습 기반 파인튜닝(RFT)의 개념부터 코드, 실제 업무 적용법까지 모두 한 번에 내 손 안에 넣어주는 강의였습니다. 요약하자면, RFT는 복잡한 추론과 정책 평가가 요구되는 분야에서 소량 데이터만으로도 효율적 퍼포먼스 향상을 이루며, 세밀한 평가기와 데이터 품질이 성패를 좌우하는 핵심입니다.

"노이즈 없는 작은 데이터, 구조화된 평가기, 실제 환경과 일치하는 프롬프트. 이 3박자가 RFT 성공의 비밀입니다!"

또한, 다양한 분야(세무, 의료, 정책집행 등)에서 RFT가 대규모 수작업 데이터 없이도 강력한 도메인 특화 AI를 구축할 수 있다는 점에서 미래 활용도가 매우 높습니다.

여러분도 공식 문서, 코딩 레포 및 Build Hour 라이브 참여로 실제로 RFT를 경험해보세요! 🚀