강화학습과 에이전트의 미래 - Morgan Stanley 연구원 Will Brown의 강연 요약

1. 강연 소개 및 주제

Will Brown은 Morgan Stanley의 머신러닝 연구원으로, 이번 강연에서 강화학습(Reinforcement Learning, RL)이 에이전트(Agents)에게 어떤 의미를 가지는지에 대해 이야기합니다. 그는 콜롬비아 대학에서 다중 에이전트 강화학습 이론을 연구했으며, 현재는 다양한 대규모 언어 모델(LLM) 관련 프로젝트를 진행 중입니다. 이번 강연은 실질적인 제품화보다는 미래를 예측하고 준비하는 데 초점을 맞춘 이야기로, 강화학습이 에이전트 엔지니어링 루프에서 어떤 역할을 할 수 있을지 탐구합니다.

"이 강연은 우리가 내일 당장 적용할 수 있는 검증된 과학이나 베스트 프랙티스에 대한 이야기가 아닙니다. 대신, 우리가 어디로 향하고 있는지, 그리고 강화학습이 에이전트에게 어떤 의미를 가지는지에 대한 이야기입니다."

2. 현재 LLM과 에이전트의 상태

LLM의 현재 상태: 대부분의 LLM은 챗봇으로 기능하며, OpenAI의 "5단계 프레임워크"를 기준으로 보면, 우리는 챗봇(레벨 1)과 추론자(reasoners, 레벨 2)에서 상당히 발전했습니다. 하지만 에이전트(레벨 3), 즉 행동을 수행하고 복잡한 작업을 처리하는 시스템으로의 전환은 아직 초기 단계입니다.
현재 에이전트의 한계:
- 대부분의 에이전트는 짧은 시간(10분 이하) 동안만 작업을 수행합니다.
- 사용자 피드백 루프에 의존하며, 높은 수준의 자율성을 가지지 못합니다.
- "Devon Operator"와 "OpenAI Deep Research" 같은 몇몇 사례가 있지만, 여전히 완전한 자율 에이전트와는 거리가 멉니다.

"우리는 더 나은 모델이 나오기를 기다리며 모든 것이 해결될 것이라고 생각할 수 있습니다. 하지만 강화학습의 전통적인 정의를 다시 살펴보는 것도 중요합니다. 에이전트란 환경과 상호작용하며 목표를 향해 점점 더 나아지는 시스템입니다."

3. 강화학습의 핵심 개념

강화학습의 정의: 강화학습은 목표를 달성하기 위해 환경과 상호작용하며 점진적으로 학습하는 시스템을 의미합니다. 이는 단순히 데이터를 학습하는 것이 아니라, 반복적인 피드백 루프를 통해 성능을 개선하는 방식입니다.
탐험과 활용(Explore and Exploit):
- 탐험: 새로운 시도를 통해 어떤 전략이 효과적인지 확인.
- 활용: 효과적인 전략을 더 많이 사용하고, 비효율적인 전략은 줄임.

"강화학습의 핵심은 '좋은 전략'을 식별하고 이를 통해 문제를 해결하는 것입니다."

4. 강화학습의 최근 사례와 가능성

DeepSeek의 R1 모델:
- R1 모델은 강화학습을 통해 긴 사고 체인(Long Chain of Thought)을 학습했습니다.
- 이는 사람이 수작업으로 데이터를 제공한 것이 아니라, 모델이 스스로 학습한 결과입니다.
- R1 모델은 질문에 대한 답을 맞추는 방식으로 피드백을 받고, 이를 통해 점점 더 나은 성능을 발휘했습니다.

"R1 모델의 긴 사고 체인은 수동적으로 프로그래밍된 것이 아니라, 강화학습을 통해 모델이 스스로 학습한 전략의 부산물입니다."

오픈소스의 부활:
- R1 프로젝트 이후, 오픈소스 커뮤니티는 이를 복제하거나 더 작은 모델로 증류하려는 노력을 기울이고 있습니다.
- 이는 강화학습이 대규모 데이터 없이도 새로운 기술을 학습할 수 있는 가능성을 보여줍니다.

5. 강화학습과 에이전트의 연결

에이전트와 강화학습의 접목:
- 강화학습은 에이전트가 더 높은 자율성을 가지도록 돕는 핵심 기술로 주목받고 있습니다.
- 예를 들어, 에이전트가 여러 도구를 호출하거나 인터넷을 검색하며 복잡한 작업을 수행하는 능력을 강화학습으로 학습할 수 있습니다.
현재의 한계:
- 강화학습은 새로운 기술을 학습하는 데 유용하지만, 모든 문제를 해결할 수 있는 만능 솔루션은 아닙니다.
- 예를 들어, 반복적인 계산 작업이나 분포 밖(out-of-distribution) 문제에서는 여전히 어려움을 겪습니다.

"강화학습은 새로운 기술과 더 높은 자율성을 위한 중요한 열쇠이지만, 아직 모든 문제를 해결할 수 있는 AGI(인공지능 일반)의 단계에는 도달하지 못했습니다."

6. 강화학습을 위한 환경과 보상 설계

루브릭 엔지니어링(Rubric Engineering):
- 강화학습에서 중요한 것은 보상 설계입니다. 단순히 "정답을 맞췄는가?"를 평가하는 것을 넘어, 다양한 기준을 설정해 모델이 학습할 수 있도록 해야 합니다.
- 예시:
  - XML 구조를 따랐는가?
  - 정수형 답변을 생성했는가?
  - 더 긴 사고 체인을 통해 문제를 해결했는가?

"루브릭 엔지니어링은 모델이 스스로 학습할 수 있도록 보상을 설계하는 창의적인 과정입니다."

보상 해킹의 위험:
- 모델이 보상을 최대화하려고 목표와 무관한 행동을 학습할 수 있으므로, 보상이 실제 목표를 잘 반영하도록 설계해야 합니다.

7. 강화학습의 미래와 AI 엔지니어링

AI 엔지니어링의 변화:
- 강화학습이 에이전트 개발의 핵심 기술로 자리 잡으면서, 환경 설계와 보상 설계가 중요한 역할을 하게 될 것입니다.
- 기존의 프롬프트 엔지니어링, 평가 시스템, 모니터링 도구 등은 여전히 중요한 기술로 남을 것입니다.
미래의 가능성:
- 강화학습을 통해 진정한 자율 에이전트를 개발할 수 있는 가능성이 열리고 있습니다.
- 하지만 이를 위해서는 여전히 많은 연구와 실험이 필요하며, 비용, 일반화, 보상 설계 등 해결해야 할 과제가 많습니다.

"우리는 강화학습이 에이전트 개발의 핵심 기술로 자리 잡는 세상에서 어떤 모습일지 상상하고 준비해야 합니다."

8. 결론

Will Brown은 강화학습이 에이전트 개발의 미래를 열어줄 중요한 기술임을 강조하며, 이를 통해 더 높은 자율성과 복잡한 작업 수행 능력을 가진 시스템을 개발할 수 있을 것이라고 전망합니다. 하지만 이는 여전히 초기 단계에 있으며, 많은 실험과 창의적인 접근이 필요합니다.

"강화학습은 에이전트 개발의 새로운 가능성을 열어주지만, 이를 실현하기 위해서는 우리가 환경과 보상을 설계하는 방식에 대해 더 깊이 고민해야 합니다."

이 강연은 강화학습과 에이전트의 현재와 미래를 이해하고, 이를 통해 다가올 AI 시대를 준비하는 데 큰 통찰을 제공합니다.

1. 강연 소개 및 주제

2. 현재 LLM과 에이전트의 상태

3. 강화학습의 핵심 개념

4. 강화학습의 최근 사례와 가능성

5. 강화학습과 에이전트의 연결

6. 강화학습을 위한 환경과 보상 설계

7. 강화학습의 미래와 AI 엔지니어링

8. 결론

Related writing

The Era When Agents 'Code' and Research Runs in 'Loops': Andrej Karpathy Conversation Summary

Claude Code Subagents vs Agent Teams: What's the Difference?

One Person Ran Anthropic's Entire Growth Marketing? The Incredible Story Made Possible by Claude Code