이 영상은 AI 앱 개발자가 예상보다 10배나 높게 발생한 AI 모델 사용 비용을 80% 절감한 과정을 상세히 설명합니다. 비용이 급증한 원인을 분석하고, 클로드 코드(Claude Code)를 활용하여 동적 시스템 프롬프트와 도구 호출 시스템을 설계 및 구현하는 과정을 보여줍니다. 이를 통해 저렴한 AI 모델을 효율적으로 사용하여 성능 저하 없이 비용을 크게 줄이는 방법을 제시합니다.


1. 예상치 못한 AI 비용 폭탄과 문제점 분석

영상은 크리스(Chris)가 개발 중인 AI 에이전트 앱의 비용이 예상보다 훨씬 많이 나와 급하게 문제 해결에 나선 이야기로 시작합니다. 그는 지난 2주간 20명의 가벼운 사용자만으로도 40달러의 비용이 발생했는데, 이는 원래 예상했던 3달러보다 10배 이상 높은 금액이었습니다. 이대로라면 사용자가 늘어날 경우 파산할 수도 있다는 위기감을 느꼈다고 합니다.

크리스는 개발 초기 사용자당 2~4센트의 비용을 예상했지만, 도구 호출(tool calls)이 별도의 요청으로 계산된다는 사실을 간과했습니다. 예를 들어, "내 회의를 내일로 옮겨줘"라는 간단한 요청 하나가 실제로는 다음과 같은 여러 단계의 요청으로 처리되었습니다.

  • 초기 요청 이해
  • 작업 데이터 가져오기 위한 도구 호출
  • 이벤트 업데이트를 위한 도구 호출
  • 사용자 확인을 위한 도구 호출 (일부 경우)
  • 최종 응답

결과적으로 하나의 사용자 요청이 4~5개의 요청으로 처리되면서 비용이 10배나 증가한 것입니다.

가장 큰 문제는 거의 모든 호출에 GPT-4o와 같은 매우 비싼 모델을 사용하고 있었다는 점입니다. 크리스는 GPT-4o가 다른 저렴한 모델(GPT-4 Mini, Gemini Flash 등)보다 훨씬 정확했기 때문에 어쩔 수 없이 사용했다고 설명합니다. 저렴한 모델들은 테스트 시 약 20%의 실패율을 보인 반면, GPT-4o는 2% 정도의 실패율을 보였습니다.

하지만 그는 곧 깨달았습니다.

"어쩌면 이 작고 저렴한 모델들이 나쁜 게 아닐 수도 있습니다. 어쩌면 제가 그들에게 너무 많은 것을 요구하고 있는 것일 수도 있습니다."

그는 집을 봐주는 사람에게 100가지가 넘는 긴 목록을 주는 것과 3가지의 짧은 목록을 주는 것에 비유하며, AI 모델도 마찬가지로 더 많은 도구와 지침을 줄수록 안정적으로 실행하기 어렵다고 설명했습니다. 특히 작은 모델일수록 더욱 그렇다는 것이 그의 경험이었습니다.


2. 해결책: 동적 시스템 프롬프트와 도구 목록

크리스가 찾은 해결책은 고수준에서 보면 매우 간단했습니다. 바로 동적으로 시스템 프롬프트와 도구 목록을 생성하는 것입니다. 거대한 시스템 프롬프트와 17개의 모든 도구를 한 번에 보내는 대신, AI 모델이 작업을 수행하는 데 정확히 필요한 것만 보내는 방식입니다. 이렇게 하면 작은 모델들도 요청을 훨씬 더 안정적으로 실행할 수 있게 됩니다.

이러한 해결책을 구체적인 기술 아키텍처로 구현하기 위해 크리스는 클로드 코드(Claude Code)를 활용했습니다. 그는 클로드 코드를 단순한 코딩 도구가 아닌, 연구 파트너이자 기술 솔루션 아키텍처를 돕는 도구로 사용했다고 강조합니다.


3. 클로드 코드를 활용한 솔루션 아키텍처 설계

크리스는 커서(Cursor) 내에서 클로드 코드를 실행하며 다음과 같이 질문했습니다.

"이 코드베이스를 분석하고 시스템 프롬프트와 도구 호출을 줄여 훨씬 저렴한 모델을 사용할 수 있는 기술 솔루션을 제안해 줄 수 있나요? 울트라 씽크(Ultra Think)를 사용해 주세요."

여기서 '울트라 씽크'는 클로드 코드가 더 깊이 생각하도록 유도하는 특별한 키워드입니다. 클로드 코드는 이 요청에 대해 오랜 시간 동안 생각하며 실시간으로 사고 과정을 보여주었습니다. 크리스는 클로드 코드가 시스템 프롬프트가 너무 크고, GPT-4o와 클로드 소넷(Claude Sonnet) 같은 비싼 모델을 사용하며, 17개의 도구가 있다는 문제점을 정확히 파악하는 것에 감탄했습니다.

클로드 코드는 분석을 마친 후 두 개의 마크다운 파일을 생성하여 솔루션을 제안했습니다.

3.1. 모델 가격 비교 및 스마트 모델 선택

첫 번째 파일은 다양한 모델의 가격을 비교하고, GPT-4o, Gemini 2.0 Flash, DeepSeek 등의 모델 사용을 권장했습니다. 또한, 복잡성에 따라 모델을 분류하여 스마트하게 선택할 것을 제안했습니다.

3.2. 동적 시스템 프롬프트 및 도구 호출 아키텍처

두 번째 파일은 제안된 아키텍처를 상세히 설명했습니다.

  • 의도 분류 계층 (Intent Classification Layer):
    • 매우 저렴한 Gemini Flash를 사용하여 사용자 요청의 의도를 분류합니다.
    • 예시 의도 유형: 검색 작업, 분석 등.
  • 동적 시스템 프롬프트 구축:
    • 하나의 거대한 시스템 프롬프트 대신, 여러 개의 모듈로 분리합니다.
    • 사용자 요청의 의도에 따라 필요한 모듈만 조합하여 동적으로 시스템 프롬프트를 구성합니다.
    • 이를 통해 25,000 토큰에서 2,000~5,000 토큰으로 토큰 수를 크게 줄일 수 있습니다.
  • 동적 도구 호출:
    • 도구들을 여러 그룹으로 나눕니다.
    • 사용자 요청의 의도에 따라 필요한 도구 그룹만 선택하여 보냅니다.
    • 모든 17개의 도구를 보내는 대신 몇 개만 보내어 도구 수를 50~70% 줄일 수 있습니다.
  • 모델 선택:
    • 요청의 복잡성에 따라 특정 모델을 선택합니다.
    • 매우 간단한 요청에는 Gemini Flash와 같은 초저가 모델을, 매우 복잡한 요청에는 GPT-4o와 같은 프리미엄 모델을 필요한 경우에만 사용합니다.

클로드 코드는 이 모든 구현 세부 사항을 포함하여 orchestrateRequest 함수를 통해 의도 분류, 동적 시스템 프롬프트 및 도구 구축, 모델 선택 과정을 제안했습니다. 크리스는 이 계획이 복잡한 아키텍처를 시작하는 데 매우 좋은 출발점이라고 평가하며, 클로드 코드를 연구 파트너로 활용하는 팁을 공유했습니다.


4. 솔루션 구현 및 코드 워크스루

기술 아키텍처가 완성되자 크리스는 클로드 코드에게 바로 구현을 요청했고, 놀랍게도 클로드 코드는 이 복잡한 시스템을 한 번에 구현해냈습니다. 이는 계획이 워낙 잘 짜여 있었기 때문이라고 크리스는 설명합니다.

크리스는 구현된 코드를 직접 보여주며 설명했습니다.

  1. orchestrateRequest 함수: 모든 사용자 요청이 이 새로운 함수를 통과합니다.
  2. 의도 분류 (Intent Classification):
    • 가장 먼저 사용자 메시지의 종류를 분류합니다. 복잡한 요청인지, 시간 관련 요청인지 등을 파악합니다.
    • 이 단계에서는 Gemini 2.0 Flash와 같은 작고 저렴한 모델을 사용합니다.
    • 사용자 요청을 분석하여 요청의 복잡성, 필요한 도구, 필요한 모델 등의 메타데이터를 포함하는 객체를 반환합니다.
    • 크리스는 이 분류를 돕기 위해 모델에 상세한 지침을 제공했습니다.
  3. 동적 시스템 프롬프트 구축:
    • 의도 분류에서 얻은 메타데이터를 기반으로 시스템 프롬프트를 만듭니다.
    • 날짜 정보, 사용자 확인 여부 등 필수적인 비협상 요소를 먼저 포함합니다.
    • 이전에 사용하던 거대한 시스템 프롬프트를 모듈(예: 삭제, 스케줄링, 시간대 관련 모듈)로 분리했습니다.
    • 요청에 필요한 모듈만 선택하여 조합함으로써 시스템 프롬프트의 크기를 대폭 줄입니다.
  4. 도구 선택:
    • 의도와 요청 유형에 따라 필요한 도구 목록을 선택합니다.
    • 예를 들어, 기본 검색 작업에는 검색 도구만, 스케줄링 작업에는 스케줄링 도구만 제공합니다.
    • 검색과 스케줄링이 모두 필요한 경우 두 가지 도구 그룹을 모두 제공합니다.
    • 이로써 모든 도구를 한 번에 보내는 대신 필요한 도구만 보냅니다.
  5. 모델 선택:
    • 가장 간단한 단계로, 요청의 복잡성에 따라 사용할 모델을 매핑합니다.
    • 매우 간단한 요청에는 Gemini 2.0 Flash를, 매우 복잡하고 비싼 모델이 필요한 요청에는 GPT-4o를 사용합니다.
    • 현재는 배열 형태로 되어 있지만, 이는 GPT-4o가 다운될 경우 다음 모델로 넘어가는 폴백(fallback) 시스템을 나중에 구현하기 위한 준비라고 설명했습니다.

이 모든 과정을 거쳐 최종적으로 LLM(대규모 언어 모델)에 보내지는 컨텍스트는 80% 이상 작아졌습니다. 크리스는 이 시스템이 겉보기에는 복잡해 보이지만 실제로는 매우 간단하며, 클로드 코드가 이 모든 것을 한 번에 구현해냈다고 다시 한번 강조했습니다.


5. 변화의 결과 및 핵심 교훈

이러한 변경 사항을 구현한 후, 크리스는 놀라운 결과를 얻었습니다.

  • 비용 절감: 요청당 2~4센트(도구 호출 포함 시 약 20센트)였던 비용이 요청당 0.5센트 미만으로, 심지어 그보다 더 낮게 떨어졌습니다. 평균적으로 80% 이상의 비용 절감을 달성했습니다.
  • 정확도 유지: 가장 중요한 질문은 저렴한 모델로 전환하면서 정확도가 떨어지지 않았느냐는 것이었습니다. 크리스는 평가 시스템(자동화된 테스트)을 구축하여 다양한 시나리오를 실행하며 에이전트가 제대로 작동하는지 확인했습니다. 모든 테스트를 통과하여 신뢰성이 전혀 떨어지지 않았음을 확인했습니다.

    "각 모델이 필요한 것만 정확히 가지고 있기 때문에, 이 작은 모델들이 지침을 제대로 따를 가능성이 훨씬 높아졌습니다."

크리스는 이 평가 시스템에 대해서도 별도의 영상을 만들 수 있다고 언급했습니다.

마지막으로 크리스는 세 가지 핵심 교훈을 공유했습니다.

  1. 동적 시스템 프롬프트 및 도구 호출 방식의 유용성: 거대한 시스템 프롬프트가 있어 모델이 제대로 따르기 어렵다고 생각될 때, 이 방식은 매우 좋은 대안입니다. 이를 통해 훨씬 저렴한 모델을 사용할 수 있습니다.
  2. 저렴한 모델의 효율성: 2~3개의 작고 저렴한 모델을 사용하는 것이 하나의 비싼 모델을 사용하는 것보다 속도와 비용 면에서 더 효율적일 수 있습니다. 실제로 이 경우에 그러했습니다.
  3. 도구 호출 비용 고려: 에이전트와 함께 도구 호출을 다룰 때는 반드시 해당 비용을 전체 비용에 포함하여 계산해야 합니다.

6. 마무리

크리스는 이번 비용 폭탄 사태가 오히려 새로운 기술을 배우는 계기가 되어 기쁘다고 말하며, 이러한 최적화 기술들이 돌이켜보면 매우 당연하게 느껴진다고 덧붙였습니다. 앞으로도 더 많은 최적화 기술을 배우고 공유할 예정이라고 밝히며, 시청자들에게 자신의 다른 소셜 미디어 채널과 구독을 독려하며 영상을 마무리했습니다.

Related writing

Related writing

HarvestAIKorean

에이전트가 ‘코딩’하고, 연구가 ‘루프’를 돌기 시작한 시대: 안드레이 카파시 대담 요약

안드레이 카파시는 최근 몇 달 사이 코딩 에이전트의 도약으로 인해, 사람이 직접 코드를 치기보다 “에이전트에게 의도를 전달하는 일”이 핵심이 됐다고 말합니다. 그는 이 흐름이 오토리서치(AutoResearch)처럼 “실험–학습–최적화”를 사람이 거의 개입하지 않고 굴리는 자율 연구 루프로...

Mar 21, 2026Read more
HarvestAIKorean

Claude 코드 서브 에이전트 vs 에이전트 팀: 무엇이 다를까요?

이 영상은 Shaw Talebi가 Claude 코드의 서브 에이전트와 에이전트 팀 기능을 자세히 설명하고, 실제 작업에 이 두 접근 방식을 비교하는 실험 결과를 공유합니다. 영상은 Claude 코드의 기본 개념부터 시작하여 AI 에이전트가 직면하는 문맥 처리의 한계, 그리고 이를 극복하기...

Mar 16, 2026Read more
HarvestAIKorean

한 명이 앤트로픽의 전체 성장 마케팅을 담당했다고? 클로드 코드로 가능했던 놀라운 이야기!

이 이야기는 2026년 기준으로 앤트로픽이라는 380억 달러 규모의 거대 기업에서 단 한 명의 비기술직 직원이 무려 10개월 동안 전체 성장 마케팅 팀의 역할을 수행했던 놀라운 사례를 다룹니다. 이 한 명의 마케터는 유료 검색 광고, 소셜 미디어 광고, 앱 스토어 최적화, 이메일 마케팅,...

Mar 11, 2026Read more