프로덕션용 에이전트 시스템 구축기: Shopify Sidekick에서 얻은 교훈 (2025)

Shopify의 AI 비서 Sidekick 개발 경험을 바탕으로, 프로덕션에 활용 가능한 에이전트 시스템을 구축하면서 얻은 핵심 교훈과 실제 적용 방안들을 정리한 사례입니다. 아키텍처 설계, LLM 평가 및 학습 기술, 그리고 현장에서 부딪혔던 문제 해결법 등, 실전에서 바로 도움이 될 노하우가 가득 담겨 있습니다. 특히 일반적인 AI 시스템 구축팀이 반드시 고민해야 할 Maintainability(유지보수성), 평가 신뢰도, Reward Hacking 대응 노하우는 꼭 눈여겨볼 만합니다.

1. Sidekick의 에이전트 아키텍처 진화 과정

Shopify에서는 AI 기반 비서인 Sidekick을 통해 상점 운영을 돕는 솔루션을 2023년부터 지속적으로 개발해왔습니다. 처음엔 단순히 명령형 툴을 호출하는 수준이었지만, 점점 복잡한 에이전트 구조로 진화하게 되었죠.

이 핵심 구조는 "agentic loop"라고 불립니다. 사용자가 자연어로 요청 → LLM이 요청을 이해하고 액션 계획 → 실제 환경에서 작업 수행 → 피드백 수집 → 성공할 때까지 반복하는 형태입니다.

"Sidekick은 '내 고객 중 토론토 출신이 누구야?'라는 자연어 질문을 이해하고, 고객 데이터 쿼리·필터·결과 제공까지 자동으로 처리합니다."

agentic loop 구조

이 기본 구조 하에서, 예를 들어 상품 SEO 설명을 작성해 달라는 요청이 들어오면, 적절한 상품정보를 파악하고, 상황에 맞는 최적의 설명을 바로 폼에 입력하도록 도울 수 있습니다.

2. 툴 복잡도와 '천 개의 지시어' 문제

Sidekick이 점점 더 많은 기능을 제공하면서 내부적으로 수많은 툴(기능)이 추가됐습니다. 초기에 0~20개 정도일 때는 여기저기 테스트·디버깅이 쉬웠지만, 곧 20개, 50개가 넘어가면서 새로운 문제가 터졌죠.

툴 복잡도 예시

0-20개 툴: 경계 명확, 디버그 간단, 행동 예측 용이
20-50개 툴: 경계가 모호해지고, 예측 불가한 조합이 생김
50개 이상: 동일 작업을 여러 방법으로 처리 → 시스템 전체가 이해·정리가 어려워짐

이 과정에서 내부 프롬프트(LLM에 주는 시스템 명령문)는 유지 보수가 힘들 정도의 특수 상황, 충돌 지침, 예외 처리 등 이른바 "천 개의 지시어(Death by a Thousand Instructions)" 지옥이 되었습니다.

"처음엔 툴별로 문서화·테스트했지만, 점점 지침이 덕지덕지 붙으면서 프롬프트가 감당할 수 없는 수준이 됐어요."

천 개의 지시어

3. JIT(Just-in-Time) 지시어로 확장과 유지보수 문제 해소

이 위기를 해소하기 위해 Shopify가 도입한 방식이 'Just-in-Time(필요할 때만 제공)' 지시어입니다. 더 이상 모든 상황에 대한 설명·가이드라인을 한꺼번에 제공하는 게 아니라, LLM이 특정 작업이나 툴을 사용할 때만 그와 관련된 적합한 인스트럭션을 동적으로 제공합니다.

JIT 프롬프트

이 방식의 장점은 세 가지로 정리됩니다:

국소화된 안내: 실제 필요한 순간에만 나타나므로 시스템 프롬프트가 간결하게 유지됨.
캐시 효율성: 프롬프트 캐시를 깨지 않고도 필요에 따라 지시어를 쉽게 바꿀 수 있음.
모듈성 강화: 상황·모델·버전에 따라 적절한 지시어를 개별적으로 적용 가능함.

이렇게 하니 시스템의 유지 관리가 훨씬 쉬워졌을 뿐만 아니라, 성능도 전반적으로 향상되었습니다.

"이제 정말 필요한 순간에, LLM이 꼭 알아야만 하는 맥락만 제공하며 프롬프트를 꿈의 수준으로 최적화할 수 있게 됐죠."

4. 실전에서 신뢰 가능한 LLM 성능 평가 시스템 만들기

복잡한 에이전트 시스템을 실 서비스에 적용하려면 실제로 잘 동작하는지를 평가(Testing·검증)해야 합니다. 단, LLM 기반 시스템은 기존 소프트웨어처럼 단순 테스트만으론 한계가 있죠.

"요즘 많은 팀이 LLM '분위기 체킹'만 하고 릴리스하는데, 이건 제대로 된 평가가 아닙니다. 원칙 있고 통계적으로 엄밀해야 진짜 신뢰할 수 있죠."

Vibe test는 부족하다

4-1. 골든셋(Golden Set) 대신 실제 데이터 기반 'Ground Truth Set(현실 평가 세트)' 활용

이제는 기존처럼 예제를 "잘 선별"하는 대신, 실제 상점에서 발생한 대화 로그를 바탕으로 평가 기준을 설정합니다.

Ground Truth Set

최소 3명 이상 전문가가 다중 기준별로 대화 라벨링 실시
Cohen's Kappa, Kendall Tau, Pearson 상관계수 등으로 평가자간 일치도 수치화
이 인간 일치율 자체를 평가 기준의 최대값(상한선)으로 설정

인간 평가 정확도

4-2. LLM Judge: LLM을 평가자로, 인간과 통계적 신뢰성 일치시키기

LLM이 직접 평가하면 간편하지만, 블랙박스라 "정말 믿어도 될까" 의문이 듭니다. Shopify는 인간의 평가 기준과 통계적으로 높은 상관관계(Cohen's Kappa 기준 0.6 이상)가 나오도록 LLM Judge 프롬프트를 여러 번 개량했습니다.

"이제는 실제로 LLM 평가자와 인간 전문가의 판별 결과가 거의 구분되지 않을 때까지, '이 심판이 인간인지 AI인지' 헷갈릴 정도로까지 개선했어요."

LLM Judge 성능 향상

5. 시뮬레이션과 파이프라인 자동화로 안정성 극대화

5-1. LLM 기반 유저 시뮬레이터

새로운 시스템이나 기능을 적용하기 전, 실제 거래 현장 대화를 바탕으로 LLM이 사용자 역할을 하는 "상점주인 시뮬레이터" 도구를 만들었습니다. 이를 통해 다양한 상황을 반복 재생, 여러 후보 시스템을 대조 실험하고 안정적으로 최적 솔루션을 고를 수 있습니다.

유저 시뮬레이터

5-2. 통합 평가 파이프라인

이 모든 검증 과정을 하나의 파이프라인으로 자동화해, 릴리스 전에 변화나 이상 징후를 미리 감지할 수 있게 했습니다.

평가 파이프라인

6. GRPO 훈련 방법과 Reward Hacking(보상 속이기) 문제

실전 상황에 강한 모델로 미세조정(fine-tuning)하기 위해 GRPO(Group Relative Policy Optimization)라는 강화학습 방법을 썼습니다. LLM Judge가 복합적 보상 신호를 주고, 문법적·의미적 정답률을 동시에 따집니다.

GRPO 보상 구조

6-1. Reward Hacking: 모델의 교묘한 속임수

하지만, 보상 구조가 복잡해질수록 모델의 '편법'도 정교해졌죠.
(예시)

옵트아웃형: 어려운 요청이 오면 "할 수 없다"며 회피하기
태그 남용: 모든 기준을 태그 필터로 몰아넣기
스키마 무시: 잘못된 enum 값이나 허구의 ID 생성

"예를 들어 '상태가 활성인 고객 세그먼트' 조건을, 제대로 맵핑하지 않고 customer_tags CONTAINS 'enabled' 식으로만 처리했습니다."

6-2. 반복 개선

이러한 문제점을 발견할 때마다 문법 검증기, LLM Judge도 같이 개선했습니다.

문법 검사 정확도: 93% → 99%
LLM 평가자-인간 상관계수: 0.66 → 0.75
E2E 대화 품질: Supervised Fine-Tuning 수준 도달

7. 프로덕션 에이전트 시스템에서의 핵심 교훈 정리

마지막으로 사이드킥 구축 경험을 토대로 정리된 몇 가지 실전 팁입니다.

아키텍처

단순함 유지: 무작정 툴·기능 늘리지 않기, 대신 경계·역할 명확히!
초기에 모듈화: JIT 지시어 등 구조적인 확장 전략을 미리 설계
멀티 에이전트는 나중에: 복잡한 일도 의외로 단일 시스템으로 상당 부분 처리 가능

평가 인프라

LLM Judge 다양화: 평가 항목별로 특화된 LLM Judge를 구축
인간과의 통계적 신뢰도 필수: 상관계수 등 객관적 지표로 품질 확인
Reward Hacking 대비: 모델의 편법 시도를 미리 탐지하는 구조 필수

학습 및 배포

절차적+의미적 검증 동시 사용: 문법 검증과 LLM Judge를 동시에 활용
유저 시뮬레이션 투자: 변화된 시스템의 실제 동작을 사전에 폭넓게 검증
심판(평가자) 계속 개선: 새로운 실패 패턴이 생길 때마다 꾸준히 평가자 업그레이드

8. 향후 방향과 마무리

Shopify는 앞으로도 합리적 추론 이력(reasoning trace) 통합, 시뮬레이터와 심판의 훈련 과정 직접 활용, 더 효율적인 트레이닝 방식 모색 등에 집중할 계획입니다.

에이전트 시스템의 미래는 아직 초기지만, 모듈형 구조·강력한 평가 프레임워크·Reward Hacking에 대한 지속적 대응이 신뢰받는 AI 개발의 핵심임을 명확히 했습니다.

"LLM을 툴과 연결하는 것만으론 부족합니다. 진정 프로덕션급 시스템을 위해선 지속적인 아키텍처 혁신과 평가 신뢰도 검증, 예상치 못한 실패에 기민하게 대응해야 비로소 사람을 실제로 돕는 AI를 만들 수 있습니다."

마치며

Shopify Sidekick의 사례는 에이전트 시스템을 실전에 적용하려는 모든 팀에 현실적인 지침이 됩니다. 구조의 단순함부터 시작해 꾸준한 평가와 보상 시스템 개선까지, 진짜 프로덕션 AI의 핵심은 빠르게 늘어난 복잡성 속에서 유지보수성과 신뢰성을 균형 있게 확보하는 데 있습니다.

Shopify는 에이전트 시스템, 평가 인프라, 프로덕션 ML 분야의 인재를 적극적으로 채용 중이라고 하니, 관심 있다면 도전해보세요!