AI, 스스로 답을 검증하다: DuPO와 AI 내적 비평의 혁신

AI가 스스로 답을 검증하고 논리적 일관성을 평가하는 혁신적인 접근법들이 등장했습니다. 본문에서는 DuPO(이중 선호 최적화)와 STEPWISER(내부 심사 AI 프레임워크)라는 두 가지 자기 검증 시스템이 상세히 설명됩니다. 이 방법들은 AI의 신뢰성을 크게 높이고, 인간의 직접적 개입 없이 스스로 오답을 수정하거나, 추론 과정의 오류를 찾아낼 수 있게 만드는 데 중점을 둡니다.

1. 질문과 불신: AI의 한계에서 출발하다

AI에게 삼각형의 외접원의 반지름(=circumradius)을 묻는 문제를 던졌더니, 자신감 넘치게 "468"이란 답을 내놨습니다. 겉보기에 그럴듯했지만, 질문자는 진짜 맞는지 확신할 수 없었습니다. 이는 AI를 사용할 때 종종 겪는 "블랙박스"에 대한 불안과 연결됩니다.

"나는 AI에게 기하학 문제를 풀어달라고 요청했다. 삼각형의 외접원 반지름에 관한 문제였다. 오랜만에 듣는 고등학교 수학이다. AI는 답을 내놨다: 468. 자신감 넘치고 그럴듯하게 들렸다. 그런데 진짜 맞는 건가?"

이런 불안은 AI의 '지식 부족', '프롬프트 부정확성' 때문이 아니라 AI가 자신의 답을 검증할 방법이 없다는 구조적 한계에서 비롯됐습니다.

2. DuPO: AI가 자체적으로 답을 검증하는 법

어느 연구 논문의 짧은 문장에서 해결의 실마리가 나옵니다. 핵심은 문제와 그 쌍방향(dual) 문제의 관계를 활용, 자기검증용 보상 신호를 만든다는 것.

"문제와 그 쌍방향 문제 간의 내재적 관계를 활용해, 자기 지도(self-supervised) 보상 신호를 만든다."

여기서 소개되는 방식이 바로 DuPO(Dual Preference Optimization, 이중 선호 최적화)입니다. 이 방식은 AI가 자기 자신에게 "숙제를 다시 검사하는" 문제를 던지도록 유도합니다.

핵심 아이디어

AI에게 '문제'를 주고, AI가 답을 내면
문제의 일부분(숫자 등)을 숨긴 뒤, "아까 네가 낸 답을 바탕으로, 숨긴 그 부분은 뭐였지?"라고 다시 묻습니다.
AI가 숨긴 부분을 맞추면 원래 답 역시 신뢰도가 높은 것.
맞추지 못하면, 원본 답은 잘못됐을 확률이 높음.
이 과정을 통해 인간의 개입 없이도 AI 스스로 자가 보상 신호(reward signal)를 만들어 학습할 수 있습니다.

"문제의 일부를 숨기고, '네가 방금 내놓은 답을 바탕으로 내가 숨긴 부분이 무엇이었는지 말해줘'라고 AI에게 묻는다. AI가 맞추면 원래 답도 신뢰할 수 있다. 틀리면 원래 답이 잘못됐을 가능성이 크다."

예시: 수식 역추적 검사

원문 문제: "3 + 5는?"
- AI가 "8"과 "7" 두 개의 답을 냈다고 가정.
쌍방향 문제(dual task):
- "답이 8이고, 한 쪽 숫자는 3이야. 숨긴 숫자는 뭐야?" → AI가 "5"라고 답하면 정답! (신뢰도 100%)
- "답이 7이고, 한 쪽 숫자는 3이야. 숨긴 숫자는 뭐야?" → AI가 "4"라면, 원래의 답이 틀린 게 드러남.

여러 검증 "헤드"로 심층 평가

헤드 1: 외접원의 반지름을 숨기고 추적
헤드 2: 내접원의 반지름을 숨기고 추적
헤드 3: 각도를 숨기고 추적

이렇게 여러 관점으로 평가하면, 종전엔 정답만 주던 '블랙박스' AI가 이제 스스로 논리 일관성을 증명하는 '글래스박스(glass box)'로 진화합니다.

DuPO 일러스트

3. DuPO의 기대 효과: 비용, 신뢰, 공정성의 비약적 향상

DuPO의 도입은 AI 발전에서 몇 가지 큰 변화를 가져옵니다.

인간 라벨링 비용 절감: AI가 자기 검증을 하므로, 수많은 데이터 라벨러가 필요 없어집니다.
신뢰성 대폭 상승: 과학·엔지니어링·의료 등 신뢰가 중요한 분야에선 자기 점검 가능한 AI가 필수적입니다.
소규모 오픈소스 AI의 역습: 덩치만 키운 거대 독점 AI보다, 똑똑하게 자기 검증하는 작은 AI가 훨씬 효율적이 됩니다.

"이제 AI에게 기하학 문제의 답을 물었을 때, 그냥 믿을 필요가 없다. '좋아, 그럼 한번 입증해 봐'라고 요구할 수 있다."

4. STEPWISE AI: 스스로 사고를 비평하는 AI의 등장

다음 대화에선 AI가 프로젝트 예산을 계산했으나, 단 한 셀의 작은 오류로 전체 결과가 틀린 사례가 나옵니다.

"나는 AI에게 프로젝트 예산을 짜 달라고 부탁했다. 산출표, 일정, 비용 분해까지 완벽했다. 그런데 상사가 표의 한 셀을 짚었다. 두 번째 단계의 작은 공식 오류였다. 그 결과 전체 수치가 끔찍하게 틀렸다. AI는 실패했다. 왜냐하면 스스로 실수를 잡아낼 내면의 비평가가 없었기 때문이다."

여기에서 새로운 연구가 제시하는 핵심은 다음과 같습니다.

"목표는 '사고 과정(중간 추론 단계)을 먼저 평가한 뒤, 그 단계를 보상한다'는 것이다. 이제 우리는 단순히 AI에게 문제를 푸는 방법뿐만 아니라, 자기 논리 전 과정을 스스로 비판하는 '내적 독백(meta-reasoning)' 능력을 길러주고 있다."

핵심 구조

Solver AI(해결사): 문제를 풀어 감.
Judge AI(심사관): 해결사의 매 단계별 추론이 맞았는지 평가하고, '왜 그런지' 이유까지 설명.

"우리는 이제 '판사' AI가 '해결사' AI를 지켜보는 구조를 만들고 있다. 단순히 맞다/틀리다만 말하는 게 아니라, 그 판단의 근거와 이유를 모두 설명한다."

예시: 쿠키 문제

문제: "쿠키 10개에서 3개를 먹고, 남은 쿠키의 2배를 친구가 더 준다. 총 몇 개?"

해결사: "10 - 3 = 7개 남음."
심사관: "뺄셈 정확, 좋다." (성공 확률 90%)
해결사: "그 다음, 원래 수의 2배니까 10 * 2 = 20개."
심사관: "남은 수의 2배를 구해야 한다는 조건을 놓침. 핵심 오류." (성공 확률 5%)
해결사: (리셋) "7개 남음, 이걸 2배면 14개."
심사관: "조건 올바르게 이해, 곱셈 정확." (성공 확률 98%)
해결사: "7개와 14개를 더해서 21개."
심사관: "문제의 '두 배 준다'는 '새로운 총합'이란 의미, 추가 덧셈은 오류." (성공 확률 60%)
해결사: (리셋) "새로운 총합은 14개."
심사관: "정확한 해석, 최종 답 14." (성공 확률 99%)

이 과정에서 심사관(Generative Judge)은 매 순간 논리와 상황을 점검하고, 잘못된 길로 가면 즉시 수정할 수 있습니다.

STEPWISE 예시

5. 실질적 변화와 응용: AI의 신뢰성과 효율성 증대

이런 자기 검증 구조의 도입은 여러 실질적 변화를 이끕니다.

소프트웨어 개발자: 버그를 침묵 속에 만드는 AI가 아니라, 코드를 생성하며 스스로 논리 오류를 찾아내는 AI로 발전.
일반 이용자: 중요한 업무(재무, 연구, 의료 등)에도 AI를 안심하고 활용 가능.
AI 산업 전체: 최종 답을 단순 검증하는 방식에서, '모든 추론 경로와 과정'을 동적으로 감독하는 새로운 패러다임.

"다음에 프로젝트 예산을 AI에게 물어볼 땐, 이제 그냥 스프레드시트를 받는 게 아니라 AI가 이미 모든 셀을 확인하고, 실수를 스스로 찾아내 고쳤다는 사실을 믿을 수 있게 됐다. 그리고 상사가 더 이상 꼬집을 셀은 남지 않을 것이다."

6. 마치며

DuPO와 STEPWISE처럼 AI 스스로 답과 추론의 일관성을 재귀적으로 검사하고, 단계 단계마다 '자기 반성'을 적용하는 기술은 AI의 신뢰성과 활용도를 새로운 차원으로 끌어올리고 있습니다. 앞으로 우리는, AI가 "이 답이 왜 옳았는지"까지 논리적으로 입증하고 검증하는 '투명한 사고기계'와 함께하게 될 것입니다. 🚀