클로드 코드의 작동 방식 – Jared Zoneraich, PromptLayer

이 강연은 PromptLayer의 창립자이자 CEO인 Jared Zoneraich가 클로드(Claude)의 코드 생성 기능 아키텍처와 구현에 대한 독립적인 분석을 공유하며, 다른 코딩 에이전트들의 특징과 미래 방향에 대해서도 깊이 있게 다룹니다. 특히 단순한 아키텍처와 더 나은 모델의 중요성을 강조하고, 개발자들이 자신만의 AI 에이전트를 구축하는 데 필요한 실질적인 통찰력을 제공합니다.

1. 강연 소개 및 Jared Zoneraich 소개 🎙️

이번 강연은 Anthropic에서 공식적으로 후원하는 내용은 아니지만, Jared가 클로드 코드(Claude Code)의 작동 원리에 대해 독립적으로 파악한 내용을 깊이 있게 다룹니다. Jared는 자신을 "해커"라고 칭하며, 지난 2.5년간 PromptLayer를 통해 AI 엔지니어링을 위한 워크벤치를 구축해왔다고 소개했습니다. PromptLayer는 엄격한 프롬프트 엔지니어링과 에이전트 개발을 지지하며, AI 제품 개발에 제품팀, 엔지니어링팀, 그리고 해당 분야의 전문가들이 함께 참여해야 한다고 믿습니다.

"이 강연은 클로드 코드의 작동 방식에 대한 이야기입니다. 다시 한번 말씀드리지만, Anthropic과 제휴한 것은 아닙니다. 그들은 저에게 돈을 주지 않습니다. 돈을 주면 받겠지만요."

Jared는 클로드 코드의 열렬한 팬이며, PromptLayer의 엔지니어링 조직을 클로드 코드를 중심으로 재편했다고 밝혔습니다. 작은 팀으로서 수많은 엣지 케이스와 데이터 업로드 문제를 해결하는 데 어려움을 겪었는데, 클로드 코드를 통해 "1시간 이내에 완료할 수 있는 일은 그냥 클로드 코드로 처리하라"는 규칙을 세워 생산성을 크게 향상시켰다고 합니다. 🚀

2. 코딩 에이전트의 발전 과정과 클로드 코드의 등장 ✨

코딩 에이전트는 최근 폭발적으로 발전했습니다. 과거에는 자율 코딩 에이전트들이 제대로 작동하지 않아 많은 개발자가 실망했지만, 이제는 엄청난 변화를 겪고 있습니다. Jared는 그 변화의 흐름을 다음과 같이 설명합니다.

초기: "모두가 아는 것처럼, 처음에는 ChatGPT에서 코드를 복사해서 붙여 넣는 방식이었습니다. 그것만으로도 혁명적이었죠."
커서(Cursor) 등장: 커서의 초기 버전은 "VS Code 포크에 command K 기능만 있는 것"에 불과했지만, 개발자들의 많은 사랑을 받았습니다.
커서 어시스턴트(Cursor Assistant): 대화형 에이전트 기능이 추가되었습니다.
클로드 코드(Claude Code): 이제는 코드를 직접 건드리지 않고도 작업을 수행할 수 있는 "헤드리스(headless)" 워크플로우를 제공하며, 이것이 핵심적인 진전이라고 평가합니다.

"클로드 코드는 코드를 만질 필요조차 없는 새로운 워크플로우를 의미합니다. 정말 좋아야만 하죠."

3. 클로드 코드의 성공 비결: 단순한 아키텍처와 더 나은 모델 💡

Jared는 클로드 코드가 이렇게 뛰어난 이유를 다음 두 가지로 요약합니다.

3.1. 단순한 아키텍처 (Simple Architecture)

클로드 코드의 핵심 철학은 "도구를 주고, 방해가 되지 않게 하라(give it tools and then get out of the way)"입니다. 과거에는 개발자들이 모델의 환각 현상을 막기 위해 복잡한 프롬프트 체인을 만들었지만, 이제는 그렇게 할 필요가 없다고 말합니다.

"더 적은 스캐폴딩, 더 많은 모델(less scaffolding, more model)이 핵심입니다."

모델은 도구 호출(Tool Calling)에 최적화되어 스스로 학습하고 개선되고 있습니다. 따라서 개발자는 모델의 한계를 지나치게 보완하려 하지 말고, 모델이 스스로 탐색하고 문제를 해결하도록 맡겨야 합니다.

"현재 모델의 결함을 과도하게 엔지니어링하려고 하지 마세요. 대부분의 문제들은 스스로 해결될 것이고, 여러분은 시간만 낭비하게 될 겁니다."

3.2. 더 나은 모델 (Better Models)

클로드 코드의 발전은 무엇보다 Anthropic이 더 나은 모델을 출시했기 때문입니다. 이 모델들은 도구 호출에 능숙하고 자율적으로 실행되도록 최적화되어 있습니다. 클로드 코드는 기존의 복잡한 RAG(Retrieval Augmented Generation)나 임베딩(Embeddings), 분류기(Classifiers) 같은 방식을 배제하고, 단순히 "더 나은 모델을 만들고, 모델이 스스로 학습하게 하자"는 접근 방식을 취했습니다.

파이썬의 "젠(Zen of Python)"처럼, 클로드 코드의 아키텍처는 단순함과 명확성을 강조합니다.

"간단한 것이 복잡한 것보다 낫고, 복잡한 것이 난해한 것보다 낫고, 평평한 것이 중첩된 것보다 낫습니다. 이것이 바로 이 강연의 전부입니다. 클로드 코드가 어떻게 작동하고 왜 작동하는지에 대해 알아야 할 모든 것입니다."

4. 클로드 코드의 핵심 구성 요소 및 작동 방식 ⚙️

Jared는 클로드 코드의 구체적인 구성 요소들을 하나씩 설명합니다.

4.1. 헌법 (The Constitution)

클로드 코드의 헌법은 cloud MD Codex 또는 agents MD와 같은 마크다운 파일 형태의 지침서입니다. 이는 모델이 저장소를 연구하거나 복잡한 벡터 데이터베이스를 구축할 필요 없이, 사용자가 필요에 따라 직접 수정하고 에이전트도 변경할 수 있는 매우 단순한 방식입니다.

"결국 모든 것은 프롬프트 엔지니어링, 또는 컨텍스트 엔지니어링입니다. 이러한 범용 모델을 당신의 용도에 맞게 어떻게 적용할 것인가? 그리고 가장 간단한 답이 최고라고 생각합니다."

4.2. 마스터 루프 (Master Loop)

클로드 코드의 핵심은 단순한 마스터 루프입니다. 과거의 복잡한 에이전트와 달리, 클로드 코드를 포함한 모든 최신 코딩 에이전트는 단 하나의 while 루프로 구성되어 도구를 호출하고, 그 결과를 다시 모델에 전달하며, 도구 호출이 없을 때까지 반복합니다.

"도구 호출이 있는 동안에는 도구를 실행하고, 도구 결과를 모델에 제공하고, 도구 호출이 없을 때까지 이 과정을 반복한 다음 사용자에게 무엇을 할지 묻습니다."

모델은 도구를 계속 호출해야 할 때와 실수를 수정해야 할 때를 놀랍도록 잘 알고 있습니다. 이러한 유연성은 모델이 스스로 탐색하고 문제를 해결하도록 맡길수록 시스템이 더 강력해진다는 것을 보여줍니다.

4.3. 핵심 도구들 (Core Tools) 🛠️

Jared는 현재 클로드 코드에서 가장 흥미롭다고 생각하는 몇 가지 핵심 도구들을 소개했습니다. 이러한 도구들은 매일 변화할 수 있지만, 기본적으로 인간이 터미널에서 문제를 해결할 때 사용하는 행동들을 모방합니다.

읽기 (Read): 파일 내용을 읽습니다. 토큰 제한 때문에 파일이 너무 크면 읽지 못할 수도 있습니다.
Grep / Glob: 벡터 데이터베이스 대신 grep과 같은 전통적인 검색 도구를 사용합니다. 이는 RAG의 지혜와는 상반되는 접근이지만, 일반적인 에이전트에서는 효과적입니다.
편집 (Edit): 파일을 통째로 다시 쓰는 대신 Diff 방식을 사용하여 변경 사항만 적용합니다. 이는 훨씬 빠르고, 컨텍스트 사용을 줄이며, 오류 발생 가능성도 낮춥니다.
Bash: 가장 중요하고 핵심적인 도구입니다. 다른 모든 도구를 제거하고 bash만 있어도 작동할 정도로 강력하며, 파이썬 스크립트 실행, 테스트 생성 등 모든 것을 처리할 수 있습니다. bash는 풍부한 훈련 데이터를 가지고 있어 모델이 잘 활용합니다.

"바시(Bash)는 모든 것입니다. 이 도구들을 모두 제거하고 바시(Bash)만 남겨도 될 것입니다."
웹 검색 (Web Search) / 웹 가져오기 (Web Fetch): 검색이나 외부 API 호출 등은 더 저렴하고 빠른 모델로 처리하여 메인 루프의 부담을 줄입니다.
할 일 (To-dos): 모델이 작업을 추적하고 목표에서 벗어나지 않도록 돕습니다.
작업 (Tasks): 컨텍스트 관리를 위한 도구로, 긴 프로세스를 실행하거나 파일을 읽을 때 컨텍스트가 오염되지 않도록 합니다.

"가장 큰 적은 컨텍스트가 가득 차서 모델이 멍청해지는 것입니다."

4.4. 할 일 목록 (To-do Lists) 📝

할 일 목록은 클로드 코드의 중요한 기능 중 하나로, 모델이 작업을 구조화하고 진행 상황을 추적하도록 돕습니다. 흥미로운 점은 이러한 목록이 구조적으로 강제되지 않고, 전적으로 프롬프트 기반이라는 것입니다.

규칙: 한 번에 한 가지 작업만 수행하고, 완료된 작업은 표시하며, 오류가 발생하면 진행 중인 작업을 계속 처리합니다.
구현: 시스템 프롬프트에 할 일 목록이 삽입되며, 모델은 이제 이러한 지침을 따르는 데 매우 능숙합니다.
구조: 버전, ID, 할 일 제목, 그리고 증거(evidence)를 포함할 수 있는 구조화된 스키마를 가집니다.
장점:
1. 계획 강제: 모델이 미리 계획을 세우도록 유도합니다.
2. 크래시 후 재개: 충돌이 발생해도 작업을 재개할 수 있습니다.
3. 향상된 UX: 사용자에게 진행 상황을 시각적으로 제공하여 투명성을 높입니다.
4. 조정 가능성 (Steerability): 사용자가 모델의 작업 흐름을 더 쉽게 제어할 수 있도록 돕습니다.

4.5. 비동기 버퍼 (Async Buffer) 및 컨텍스트 압축 (Context Compression)

클로드 코드는 H2A라는 비동기 버퍼를 사용하여 I/O 프로세스를 추론(reasoning)과 분리합니다. 이는 터미널에서 발생하는 모든 정보를 모델에 "집어넣는" 것을 방지하여 컨텍스트를 효율적으로 관리하기 위함입니다. 컨텍스트가 용량에 도달하면 중간 부분을 버리고, 앞부분과 뒷부분을 요약하여 전달합니다.

또한, 샌드박스(Sandbox) 환경을 통해 장기 기억(long-term memory)을 저장할 수 있게 됩니다. Jared는 모든 ChatGPT 및 Claude 창이 가까운 미래에 샌드박스를 제공할 것이라고 예측하며, 이를 통해 장기적인 연구나 문서 업데이트 같은 작업을 효율적으로 처리할 수 있다고 설명합니다.

4.6. DAGs (Directed Acyclic Graphs) 없는 세상 🌎

Jared는 과거에 고객 지원 에이전트와 같은 복잡한 시스템을 구축할 때 수백 개의 노드로 이루어진 DAG(Directed Acyclic Graph)를 사용했다고 말합니다. 이는 특정 조건에 따라 프롬프트 흐름을 분기하는 방식이었지만, 개발이 복잡하고 유지 보수가 어려웠습니다.

"지난 2년 반 동안 모두가 이런 DAG를 구축했습니다. 정말 미친 짓이었죠. 이 사용자가 환불을 원하면 이 프롬프트로 보내고, 저것을 원하면 저것으로 보내는 수백 개의 노드..."

이제는 모델이 충분히 똑똑해져서 복잡한 DAG 없이 단순한 루프와 도구 호출만으로도 훨씬 더 잘 작동한다고 강조합니다. 이는 개발을 10배 더 쉽게 만들고 유지 보수성도 높입니다.

"핵심은 모델에 의존하는 것입니다. 의심스러울 때는 모든 엣지 케이스나 if 문을 다 생각하려고 하지 마세요. 그냥 모델이 탐색하고 해결하도록 맡기세요."

Jared는 자신의 경험을 예로 들어, 웹사이트 버튼에 불필요한 제목 태그를 추가하여 에이전트의 탐색을 돕고자 했지만, 오히려 에이전트가 "산만해져서" 더 나쁜 결과를 초래했다고 설명합니다. 이는 과도한 지시나 스캐폴딩이 모델의 자율적인 탐색 능력을 저해할 수 있음을 보여줍니다.

4.7. 트리거 단계 (Trigger Phases)와 샌드박스 (Sandboxing) 🔒

클로드 코드는 '생각하기(think)', '더 열심히 생각하기(think hard)', '초고도로 생각하기(ultra think)'와 같은 트리거 단계를 통해 추론 예산을 조절합니다. 이는 모델이 스스로 추론 토큰 예산을 조정할 수 있도록 하는 또 다른 매개변수입니다.

샌드박싱과 권한 관리는 중요한 보안 문제입니다. 인터넷에서 오는 프롬프트 인젝션이나 쉘 접근이 가능한 에이전트가 웹에 연결될 경우 큰 공격 벡터가 될 수 있기 때문입니다. 클로드 코드는 URL 차단, 하위 에이전트 사용, bash 명령 게이트 등의 방식으로 이를 관리합니다. Jared는 개인적으로는 "YOLO 모드"로 실행하기도 하지만, 기업 고객에게는 당연히 주의한다고 농담했습니다. 😂

4.8. 하위 에이전트 (Sub Agents) 👯

하위 에이전트는 컨텍스트 관리 문제를 해결하는 중요한 방법입니다. 특정 작업을 위한 하위 에이전트는 자신만의 독립적인 컨텍스트를 가지며, 그 결과만 메인 에이전트에 피드백함으로써 컨텍스트 오염을 방지합니다.

예시: 연구원(researcher), 문서 리더(docs reader), 테스트 러너(test runner), 코드 리뷰어(code reviewer) 등이 있습니다.
구조: 하위 에이전트는 Task라는 도구 호출을 통해 description과 prompt를 받습니다. 흥미로운 점은 코딩 에이전트가 스스로 다른 에이전트에게 프롬프트를 생성하여 전달할 수 있다는 것입니다.

"코딩 에이전트가 자체 에이전트에 프롬프트를 제공하는 것이죠. 그리고 저는 실제로 제가 만든 에이전트에서 이 패러다임을 사용해 봤습니다."
장점: 유연성을 높이고, 에러 발생 시 더 많은 정보를 전달하여 모델이 문제를 스스로 해결하도록 돕습니다.

4.9. 시스템 프롬프트 (System Prompt)와 스킬 (Skills) 📚

클로드 코드의 시스템 프롬프트는 모델의 행동을 미묘하게 조정하는 역할을 합니다. 예를 들어, 간결한 출력, 도구 사용 권장, 기존 코드에 맞추기, 주석 추가 금지, 병렬 명령 실행, 할 일 목록 사용 등을 지시합니다. 이러한 지침은 사용 경험에서 얻은 피드백을 바탕으로 모델의 특정 행동을 유도합니다.

스킬(Skills)은 확장 가능한 시스템 프롬프트와 같습니다. 컨텍스트를 과도하게 사용하지 않으면서, 특정 작업에 필요한 추가 정보를 클로드 코드에 제공하는 방법입니다.

예시: 문서 업데이트 스킬(작성 스타일, 제품 정보), Microsoft Office 파일 편집 스킬, 디자인 스타일 가이드 스킬, 심층 연구 스킬 등이 있습니다.
활용: Jared는 자신의 슬라이드를 만드는 데에도 슬라이드 개발, 심층 연구, 디자인 스킬을 활용했다고 밝혔습니다.
과제: 스킬은 매우 유용하지만, 모델이 적절한 시점에 스킬을 인식하고 호출하는 것이 여전히 도전 과제입니다. 사용자가 수동으로 스킬을 호출해야 할 때도 있습니다.

4.10. 통합 Diff (Unified Diffing) ↔️

통합 Diff는 코드 변경 사항을 적용할 때 매우 중요한 기능입니다. 파일을 통째로 다시 쓰는 대신 변경된 부분만 Diff 형식으로 표시하여 다음의 이점을 제공합니다.

컨텍스트 절약: 토큰 사용량이 훨씬 적습니다.
속도 향상: 작업이 더 빨라집니다.
오류 감소: 실수를 방지하는 데 효과적입니다. (에세이를 통째로 다시 쓰는 것보다 수정 사항을 표시하는 것이 더 쉬운 것과 같습니다.)
표준: 많은 코딩 에이전트가 통합 Diff 표준을 따르거나 유사한 방식을 사용합니다.

5. 코딩 에이전트의 미래와 다양한 철학 🔮

Jared는 코딩 에이전트의 미래에 대한 자신의 의견과 다른 에이전트들의 철학을 공유합니다.

5.1. 미래 방향 예측

도구 호출: 한편에서는 수백 개의 도구 호출을 가진 마스터 루프가 될 것이라는 예측이 있지만, Jared는 최소한의 도구 호출(단순히 bash 포함 몇 개)을 유지하는 방향으로 갈 것이라고 생각합니다.
적응형 예산 (Adaptive Budgets): '생각하기' 단계처럼 추론 예산을 조절하는 기능이 더욱 발전할 것입니다. 추론 모델(reasoning models)을 도구로 활용하여 빠르고 저렴한 모델과 고품질 모델을 상황에 맞게 전환하는 방식이 유용할 것입니다.
새로운 패러다임: 할 일 목록이나 스킬처럼, 아직 발견되지 않은 새로운 "일급 패러다임(first-class paradigms)"이 등장할 가능성이 높습니다.

5.2. AI 치료사 문제 (The AI Therapist Problem) 🤝

Jared는 이를 "AI 치료사 문제"라고 부르며, 최고의 AI 애플리케이션에는 단일한 전역 최적점(global maximum)이 존재하지 않는다고 설명합니다. 다양한 치료사들이 각기 다른 전략(명상, CBT, 아야와스카 등)을 가지듯, 코딩 에이전트 또한 다양한 디자인과 아키텍처 철학을 가질 수 있다는 것입니다.

"이것이 저의 AGI에 대한 반대 의견이기도 하지만, 애플리케이션을 구축할 때 취향이 크게 작용하고 디자인 아키텍처가 매우 중요하다는 것을 말합니다."

현재 클로드 코드, 코덱스, 커서 등 다양한 코딩 에이전트가 존재하며, 어떤 것이 가장 좋다고 단정하기 어렵습니다. 각각의 에이전트는 특정 작업에 더 뛰어날 수 있으며, 다양한 철학이 공존하며 서로 다른 유스케이스에 최적화될 것입니다.

5.3. 주요 코딩 에이전트들의 철학 비교 🆚

클로드 코드 (Claude Code): 사용자 친화성과 단순함이 강점입니다. git 작업이나 로컬 환경 설정 등 사람의 상호작용이 필요한 부분에서 뛰어납니다.
코덱스 (CodeX): 컨텍스트 관리에 뛰어나며 강력한 느낌을 줍니다. Rust 코어를 사용하고 오픈 소스라는 특징이 있습니다. 샌드박싱 방식이 커널 기반으로 클로드 코드와 다릅니다.
커서 IDE (Cursor IDE): 모델에 구애받지 않고 빠르다는 것이 강점입니다. 특히 composer라는 새로운 모델은 데이터 기반의 파인튜닝을 통해 방어력을 구축할 수 있음을 보여주었습니다.
팩토리 Droid (Factory Droid): 전문적인 하위 에이전트에 강점이 있습니다.
데본 (Devin): 엔드투엔드 자율성과 자기 반성(self-reflection)에 중점을 둡니다.
앰프 (AMP): Sourcegraph의 코딩 에이전트로, 무료 티어를 제공하며 모델에 구애받지 않는(model agnostic) 접근 방식을 취합니다. 모델 선택이 없는 대신, 개발 속도를 높이고 에이전트 친화적인 환경 구축에 집중합니다.
- 핸드오프 (Handoff): 컨텍스트 요약(compact) 대신 새로운 스레드를 시작하여 필요한 정보만 전달하는 방식으로, 컨텍스트 관리에 신선한 관점을 제공합니다.
- 모델 선택 (Model Choice): '빠른(fast)', '스마트(smart)', '오라클(oracle)'이라는 다른 모델을 사용하여 추론 강도를 조절합니다.

6. 평가 (Evals)와 미래의 워크플로우 📊

Jared는 벤치마크가 마케팅 도구가 되어버린 현실을 지적하며, 진정한 평가는 어려운 일이라고 말합니다. 특히 모델의 유연성에 의존하는 단순한 루프 아키텍처는 평가를 더 어렵게 만듭니다.

6.1. 평가 방법

엔드투엔드 테스트 (End-to-End Test): 문제가 해결되었는지 여부를 확인하는 통합 테스트입니다.
특정 시점 테스트 (Point-in-Time Test): 특정 도구 호출이 필요한 상황에서 모델의 행동을 확인합니다.
백테스트 (Backtest): 과거 데이터를 캡처하여 에이전트의 성능을 재실행하고 평가합니다.
에이전트 스멜 (Agent Smell): 에이전트가 도구 호출을 몇 번 했는지, 재시도 횟수, 소요 시간 등 표면적인 지표를 통해 건전성을 확인합니다.

6.2. 엄격한 도구 (Rigorous Tools)의 중요성

모델의 유연성을 활용하면서도, 도구 자체는 엄격하게 테스트해야 합니다. 도구를 함수처럼 입력과 출력이 명확한 단위로 보고 테스트하면, 모델의 결정론적이지 않은 부분에서 발생하는 문제를 분리하여 해결할 수 있습니다.

"모델의 비결정론을 모델의 다른 부분으로 오프로드하는 방법입니다. 도구를 테스트하세요."

Jared는 특정 이메일 형식이나 블로그 게시물과 같이 매우 구체적인 결과물이 필요한 경우, 모델의 탐색에만 의존하기보다 엄격하게 테스트할 수 있는 도구를 직접 구축하는 것이 좋다고 강조했습니다.

6.3. 헤드리스 클로드 코드 SDK (Headless Claude Code SDK)

마지막으로 Jared는 헤드리스 클로드 코드 SDK의 잠재력을 강조했습니다. 이는 클로드 코드를 파이프라인의 한 부분으로 통합하여, 간단한 프롬프트만으로 복잡한 작업을 수행할 수 있게 합니다.

예시: GitHub 액션을 통해 매일 문서를 업데이트하고, 커밋을 읽어 변경 사항을 파악한 후, cloud MD를 확인하고 PR을 생성하는 자동화된 워크플로우를 구축할 수 있습니다.
미래: 앞으로는 더 높은 추상화 수준에서 에이전트를 구축하고, 클로드 코드와 같은 에이전트가 많은 오케스트레이션 작업을 대신 수행하게 될 가능성이 있습니다.

7. 결론 및 마무리 🌟

Jared Zoneraich는 강연을 마무리하며 다섯 가지 핵심 요약을 강조했습니다.

모델을 신뢰하라: 에이전트를 구축할 때 의심스러울 때는 모델에 의존하세요.
단순한 디자인이 승리한다: 복잡하게 만들지 말고, 단순함을 추구하세요.
Bash면 충분하다: 도구는 최소화하고 bash와 같은 강력하고 범용적인 도구를 활용하세요.
컨텍스트 관리가 중요하다: 컨텍스트 오염은 모델을 "멍청하게" 만드므로, 이를 효율적으로 관리하는 것이 핵심입니다.
다양한 관점이 중요하다: 문제 해결에는 여러 가지 "최선"의 방법이 있을 수 있으며, 특정 유스케이스에 맞는 다양한 에이전트 철학이 공존할 것입니다.

Jared는 자신의 슬라이드 데크 역시 클로드 코드의 스킬(슬라이드 개발, 심층 연구, 디자인 스킬)을 활용하여 만들었다고 밝히며, AI 에이전트의 실용적인 활용 가능성을 다시 한번 보여주었습니다.