이 영상은 레고라의 CTO 제이콥 로리첸이 복잡한 AI 에이전트와의 상호작용에서 채팅 인터페이스의 한계를 지적하고, 보다 효과적인 협업 방식에 대해 설명합니다. 그는 AI 에이전트가 단순히 작업을 '수행'하는 것을 넘어, 계획과 검토 과정에서 인간의 통제와 신뢰를 높일 수 있는 방법을 제시하며, 산업별 특성에 맞는 고대역폭 인터페이스의 필요성을 강조합니다. 이를 통해 인간과 AI 에이전트가 더욱 효율적으로 협력하여 복잡한 작업을 완수할 수 있음을 보여줍니다.
1. 복잡한 AI 에이전트와의 현재 상호작용 방식의 문제점
강연은 AI 에이전트가 복잡한 작업을 수행할 때 현재 겪고 있는 문제점을 보여주면서 시작됩니다. 제이콥은 청중에게 다음과 같은 상황을 가정해봅니다.
"여러분은 무언가를 연구하고 계약서를 작성하며 실수를 하지 말라는 지시를 받습니다. 에이전트는 생각하기 시작하고, 읽기 시작하고, 여러 하위 에이전트를 실행하고, 웹 검색을 하고, 파일을 작성하고, 더 많은 하위 에이전트를 실행하고, 더 많이 읽고, 더 많은 파일을 작성하고, 계속 진행하고, 영원히 걸립니다. 30분 후에 계약서를 줍니다. 살펴보니, 3조가 잘못된 것 같습니다. '여기서 실수한 건가요? 다른 문서를 보실 수 있나요?'라고 묻습니다."
이 경우 에이전트는 다시 작업을 시작하고, 이 과정에서 '압축(compaction)'이라는 현상이 발생합니다. 이는 에이전트가 이전에 학습한 내용을 잊어버리는 '맥락 상실(context rot)' 상태에 빠지는 것을 의미합니다. 결국 에이전트가 제공하는 새로운 계약서는 이전의 피드백을 제대로 반영하지 못하는 경우가 많아 사용자에게는 매우 실망스러운 경험이 됩니다. 😔
2. 레고라(Legora) 소개 및 AI 에이전트 작업의 새로운 경제학
강연자는 자신을 법률 기술 스타트업 레고라의 CTO 제이콥이라고 소개하며, 레고라가 법률 회사들을 위한 협력적 AI 워크스페이스(collaborative AI workspace)를 제공하는 수직 AI(vertical AI) 기업이라고 설명합니다. 레고라는 1,000개 이상의 고객과 50개 이상의 시장에서 빠르게 성장하고 있으며, 런던에서 엔지니어를 고용하고 있다고 덧붙였습니다.
그는 수직 AI 기업들의 목표가 에이전트가 점점 더 복잡한 작업을 처음부터 끝까지 완료하도록 하는 것이라고 말합니다. 최근 6~12개월 사이에 이러한 목표를 달성하는 방식이 크게 변화했는데, 이는 생산 경제학의 변화(new economics of production) 때문입니다.
"이전에는 엔드 투 엔드 작업을 완료하려면 작업 자체를 수행하는 데 집중했습니다. 하지만 오늘날은 상황이 좀 다릅니다. 현재는 작업 계획(planning)과 작업 검토(reviewing)가 새로운 병목 현상이 되었습니다."
실제 작업 수행은 매우 저렴하고 쉬워졌지만, 이제는 계획을 세우고, 비기능적 요구사항(non-functional requirements)과 사양(specs)을 파악하며, 결과물을 검토하는 데 많은 시간이 소요됩니다. 제이콥은 복잡한 작업을 완료하는 데 있어 계획, 수행, 검토 단계를 아우르는 '검증자의 규칙(verifier's rule)'을 언급합니다.
"검증자의 규칙은 제이슨이 만든 용어로, '작업이 해결 가능하고 검증하기 쉽다면 AI에 의해 해결될 것이다'라고 말합니다."
이 규칙은 파운데이션 모델뿐만 아니라 에이전트에도 적용됩니다. 즉, 작업을 검증 가능하게 만들면 에이전트가 반복 작업을 통해 결국 목표를 달성할 수 있다는 것입니다.
하지만 모든 산업 분야의 모든 작업이 동일한 '검증 가능성' 스펙트럼에 있는 것은 아닙니다. 예를 들어, 법률 분야에서는 다음과 같은 차이가 있습니다.
- 계약서의 정의 확인: 매우 쉽게 검증하고 완료할 수 있는 작업입니다.
- 계약서 작성: 해결하기는 쉽지만, 실제 검증은 매우 어렵습니다.
- 제이콥은 "계약서에 사용된 언어가 제대로 작동하는지 실제로 확인할 수 있는 유일한 시점은 법원에 가서 판사가 기본적으로 검증하여 좋고 나쁨을 알려줄 때"라고 설명합니다. 🤯
- 소송 전략: 사실상 검증이 불가능합니다.
- 다섯 명의 변호사에게 같은 소송에 대한 최적의 전략을 물으면 모두 다른 답을 줄 것이기 때문에 객관적인 진실이 없어 AI가 해결하기 매우 어렵습니다.
코딩 분야에서도 마찬가지로, 쉬운 부분도 있지만 "성공적인 소비자 앱을 만드는 것"은 검증하기 매우 어렵습니다.
3. 인간과 AI 에이전트의 효과적인 협업을 위한 두 가지 핵심 요소: 신뢰와 통제
제이콥은 AI 에이전트가 작업을 수행하도록 하고, 인간은 중요한 부분에 관여해야 한다고 강조하며, 에이전트-인간 협업에 중요한 두 가지 요소를 설명합니다.
- 신뢰(Trust): 인간이 에이전트가 수행한 작업을 얼마나 믿고 검토를 최소화할 수 있는가.
- 통제(Control): 인간이 에이전트의 작업 과정에 자신의 지식을 얼마나 효과적으로 주입하고 조종할 수 있는가.
3.1. 신뢰를 높이는 방법
신뢰를 높이기 위한 여러 전략이 있습니다.
- 작업의 검증 가능성을 높이기:
- 코딩 예시: 기능 구현 시 브라우저 접근 권한을 부여하고 테스트 주도 개발(TDD)을 사용하면 검증 가능한 작업이 되어 에이전트의 성능이 향상됩니다.
- 법률 계약서 예시: 직접적인 검증이 어렵다면 프록시(proxy)를 활용하여 검증할 수 있습니다. 예를 들어, 과거의 '모범 계약서(golden contracts)'와 유사한지 테스트하여 에이전트가 더 나은 작업을 수행하도록 할 수 있습니다. 📜
- 작업 분해(Decompose tasks): 복잡한 단일 작업을 여러 개의 작은 작업으로 분해하여 인간이 더 중요한 부분을 담당하고, 에이전트는 검증하기 쉬운 부분(예: 서식 적용, 정의 확인 등)을 처리하게 합니다.
- 가드레일(Guardrails) 추가: 에이전트가 수행할 수 있는 작업을 제한함으로써 신뢰를 높일 수 있습니다. 특정 파일만 편집하게 하거나, 특정 디렉토리에서만 읽게 하거나, 특정 웹사이트만 검색하게 하는 식입니다.
"할 수 있는 것을 제한함으로써 기본적으로 더 많은 신뢰를 얻을 수 있습니다. 왜냐하면 에이전트가 이상한 일을 하지 않을 것이라는 것을 알기 때문입니다."
예를 들어, 클로드 코드(Claude Code)의 경우 신뢰도가 낮으면 모든 행동에 대해 사용자에게 물어봐서 쓸모없어질 수 있고, 신뢰도가 높으면 'YOLO 모드(YOLO mode)'로 작동하여 프로덕션 데이터베이스를 삭제하지 않기를 바랄 수 있습니다. 😱
3.2. 통제를 높이는 방법
통제를 높이는 방법 역시 중요하며, 제이콥은 복잡한 에이전트 작업이 작업의 트리(tree of work), 즉 DAG(Directed Acyclic Graph)와 같다고 설명합니다.
-
낮은 통제의 예시 (초기 에이전트 모델): 에이전트가 조직 연구, 계약서 검토, 보고서 작성 등의 모든 작업을 마치고 최종 결과물을 제시할 때까지 인간은 판단을 내릴 수 없습니다.
"기본적으로 저는 루트 레벨에서만 판단을 내릴 수 있습니다. 에이전트가 이 모든 작업을 수행한 다음 저에게 돌아오면 다시 대화하려고 할 수 있습니다. 이것이 제가 처음에 들었던 예시와 같습니다."
-
계획(Planning): 미리 에이전트를 조종하고 접근 방식에 대해 합의함으로써 통제를 높일 수 있습니다.
"계획은 본질적으로 에이전트를 사전에 조종하고 접근 방식에 대해 합의할 수 있도록 합니다."
하지만 이 방법은 에이전트에게 필요한 모든 정보를 파악하기 위해 인간이 너무 많은 작업을 해야 한다는 단점이 있습니다. 마치 동료에게 계획을 설명하고 합의한 뒤, 최종 결과물이 나올 때까지 소식이 없는 것과 같다고 비유합니다. 🤷♀️
-
스킬(Skills): 인간의 판단을 작업 노드에 인코딩하는 매우 효과적인 방법입니다.
"스킬은 정말, 정말, 정말 좋습니다. 스킬이 정말 좋은 이유는 인간의 판단을 작업 노드에 인코딩할 수 있기 때문입니다."
예를 들어, 기밀 유지 조항을 검토할 때 특정 방식을 따르도록 스킬을 정의할 수 있습니다. 이는 우발 상황(contingencies)에 대비할 수 있게 해주며, 진행성 발견(progressive discovery)에도 유리합니다.
-
정보 유도(Elicitation): 스킬이 없는 경우, 에이전트가 사용자에게 직접 질문하도록 하는 방법입니다.
"유도(elicitation)는 사용자에게 묻는 것을 의미합니다. 인간에게 물어보는 것입니다. 스킬이 있을 수도 있지만, 모든 정보를 제공하는 대신 에이전트가 여러분에게 다가와서 '이것을 어떻게 처리해야 할지 모르겠습니다. 무엇을 원하시나요?'라고 물을 것입니다."
이때 중요한 것은 에이전트가 막히지 않도록 하는 것입니다. 따라서 에이전트는 불확실한 경우에도 결정을 내리고 작업을 계속 진행하되, 그 결정을 '결정 로그(decision log)'에 기록하여 나중에 인간이 검토하고 필요하면 되돌릴 수 있도록 해야 합니다. 📝
4. 채팅을 넘어선 고대역폭 인터페이스의 필요성
제이콥은 복잡한 에이전트 작업 트리가 10배, 100배 더 커진다고 가정했을 때, 현재의 채팅 인터페이스로는 이러한 복잡성을 다루기 어렵다고 지적합니다.
"이것을 채팅에서 원하지 않습니다. 채팅을 열고 끝없이 긴 대화를 하고 50가지 질문에 답해야 하는 것을 원하지 않습니다. 무엇을 답해야 할지 모를 것이고, 올바른 맥락이 없기 때문에 제대로 할 수 없을 것입니다. 그래서 채팅은 안 됩니다. 채팅은 1차원적입니다. 대역폭이 매우 낮은 인터페이스이며, 이 작업 트리를 하나의 선형적인 것으로 축소하려고 합니다."
그는 인간과 에이전트가 고대역폭 아티팩트(high bandwidth artifacts)를 통해 협업해야 한다고 주장합니다. 이러한 인터페이스는 산업별, 수직적 시장별로 다르게 보일 수 있습니다.
-
레고라의 예시: 문서(Document) 📄
- 동료들과 협업하듯이 문서를 통해 에이전트와 협력합니다.
- 특정 조항만 변경하고, 댓글을 추가하며, 에이전트나 동료를 태그하고, 문서의 특정 부분을 전문 에이전트에게 맡길 수 있습니다.
-
레고라의 예시: 표 형식 검토(Tabular review) 📊
- 계약서 검토 시 에이전트가 '표 형식 검토'를 실행하여 사용자가 익숙한 형태로 결과물을 제공합니다.
- 주목할 항목을 플래그로 표시하여 사용자가 신속하게 문제를 파악하고 자신의 판단을 반영할 수 있도록 합니다.
"그러면 제가 들어가서 문제가 어디에 있는지 아주 빠르게 확인할 수 있습니다. 그래서 통제력이 높습니다. 저의 판단을 주입하는 데 매우 효과적입니다. 그리고 에이전트가 실제로 무엇을 했는지에 대한 아이디어를 아주 빠르게 얻을 수 있습니다."
이러한 인터페이스들은 '사후 선형적(post-hoc and linear)'인 현재의 UI 수렴 방식과 대비됩니다.
제이콥은 채팅 박스를 입력 방식으로 사용하는 것은 훌륭하지만, 복잡한 에이전트와의 주된 협업 방식이 되어서는 안 된다고 강조합니다. 언어가 보편적인 인터페이스이기는 하지만, 에이전트는 인간이 아니기 때문에 인간의 언어에만 국한되어서는 안 된다는 것입니다.
"하지만 에이전트는 인간이 아닙니다. 저는 언어에 의해 제한되지만, 에이전트는 인간이 아닙니다. 따라서 우리는 에이전트를 인간의 언어에만 국한해서는 안 됩니다. 감사합니다." 🙏
결론
제이콥 로리첸은 복잡한 AI 에이전트가 단순히 채팅을 통한 상호작용을 넘어, 인간의 신뢰와 통제를 효과적으로 높일 수 있는 고대역폭 인터페이스의 필요성을 역설합니다. 이를 통해 에이전트가 더욱 복잡하고 전문적인 작업을 수행하며 인간과 시너지를 창출할 수 있는 미래를 제시합니다. 🚀
