1. 도입 및 맥락 설정 🎤

  • Aparna Dhinkaran이 발표를 시작하며, 목소리가 조금 쉬었음을 양해 구함.
  • 오늘의 주제는 AI 에이전트와 어시스턴트의 평가에 관한 것임을 강조.
  • "여러분, 오늘은 정말 중요한 주제에 대해 이야기할 거예요. 바로 AI 에이전트와 어시스턴트를 어떻게 평가할 것인가입니다."
  • 최근 다양한 AI 에이전트가 개발되고, 이를 위한 툴과 방법론이 소개되고 있지만, 실제 프로덕션 환경에서 이들이 제대로 작동하는지 평가하는 것이 매우 중요하다고 설명.
  • "실제 세상에서 우리가 만든 에이전트가 정말로 잘 작동하는지 확인하는 게 정말 중요합니다."
  • 이 발표는 다소 기술적인 내용이 포함될 수 있지만, 리더십 레벨에서도 꼭 알아야 할 내용임을 강조.

2. AI 에이전트의 새로운 트렌드: 멀티모달과 음성 AI 🗣️

  • 대부분의 사람들이 텍스트 기반 에이전트에 익숙하지만, 이제는 음성 AI가 콜센터 등에서 빠르게 확산되고 있음.
  • "음성 AI는 이미 콜센터를 장악하고 있습니다. 전 세계적으로 10억 건이 넘는 콜센터 통화가 음성 어시스턴트로 처리되고 있어요."
  • 실제 사례로 프라이스라인의 Pennybot을 소개. 이 에이전트는 음성만으로 여행 예약이 가능함.
  • "이제는 단순히 텍스트 기반이 아니라, 멀티모달 에이전트 시대입니다."
  • 평가 방식도 에이전트의 형태(텍스트, 음성, 멀티모달)에 따라 달라져야 함을 강조.

3. AI 에이전트의 기본 구성 요소 🧩

  • 에이전트는 보통 세 가지 주요 컴포넌트로 구성됨:
    1. 라우터(Router): 다음에 어떤 행동을 할지 결정하는 '보스' 역할
    2. 스킬(Skill): 실제로 작업을 수행하는 논리적 체인
    3. 메모리(Memory): 대화의 상태와 과거 정보를 저장
  • "라우터는 마치 보스처럼, 어떤 스킬을 호출할지 결정합니다."
  • 다양한 프레임워크(LangGraph, CrewAI, LlamaIndex 등)마다 구현 방식은 다르지만, 라우터-스킬-메모리 구조는 공통적임.
  • "이 세 가지 컴포넌트는 어떤 프레임워크를 쓰든 거의 항상 등장합니다."

4. 라우터(Router)란 무엇인가? 🚦

  • 라우터는 사용자의 요청을 받아, 어떤 스킬을 호출할지 결정.
  • 예시: "나는 반품을 하고 싶어요", "할인 상품이 있나요?" 등 사용자의 질문이 라우터로 들어감.
  • 라우터는 적절한 스킬(예: 고객센터 연결, 할인 정보 제공 등)을 선택해 실행.
  • "라우터가 항상 정답을 고르진 않지만, 최대한 맞게 선택해야 합니다."
  • 라우터가 잘못된 스킬을 호출하면, 전체 플로우가 어긋날 수 있음.

5. 스킬(Skill)과 메모리(Memory)의 역할 🛠️🧠

  • 스킬: 실제로 API 호출, LLM 호출 등 다양한 작업을 수행.
  • "예를 들어, '가장 좋은 레깅스를 추천해줘'라고 하면, 상품 검색 스킬이 실행됩니다."
  • 메모리: 대화가 한 번에 끝나지 않고 여러 번 오갈 때, 이전 정보를 기억.
  • "에이전트가 이전에 무슨 말을 했는지 잊어버리면 안 되잖아요. 그래서 메모리가 중요합니다."

6. 실제 예시: 에이전트의 내부 동작(Trace) 살펴보기 🔍

  • 오픈소스 프로젝트를 통해 에이전트의 내부 동작(Trace)을 시각적으로 보여줌.
  • "이게 바로 여러분의 엔지니어들이 실제로 에이전트를 만들고 디버깅할 때 보는 화면입니다."
  • 예시: 사용자가 "내 트레이스 지연의 원인이 뭐야?"라고 질문 → 라우터가 어떤 스킬을 호출할지 결정 → SQL 쿼리 실행 → 데이터 분석 스킬 호출 → 결과 분석.
  • 여러 번의 라우터 호출이 있을 수 있고, 각 단계마다 메모리가 상태를 저장.

7. 각 컴포넌트별 평가 포인트 📝

1) 라우터 평가

  • 핵심 질문: 라우터가 올바른 스킬을 호출했는가?
  • "예를 들어, 내가 레깅스를 추천해달라고 했는데, 고객센터로 연결되면 안 되겠죠."
  • 스킬 호출 시, 올바른 파라미터(예: 소재, 가격대 등)가 전달되는지도 중요.
  • "라우터가 올바른 스킬을, 올바른 인자와 함께 호출하는지 꼭 평가해야 합니다."

2) 스킬 평가

  • 스킬 내부에는 여러 평가 포인트가 있음.
    • RAG 스킬의 경우: 불러온 정보의 관련성, 정확성
    • LLM 평가 또는 코드 기반 평가 등 다양한 방식 활용
  • "스킬의 정답률, 관련성, 그리고 실제로 원하는 결과를 내는지 꼼꼼히 봐야 해요."

3) 경로(Convergence) 평가

  • 에이전트가 동일한 작업을 수행할 때, 항상 비슷한 단계 수로 끝나는지 확인.
  • "같은 스킬을 오픈AI로 만들었을 때와 Anthropic으로 만들었을 때, 단계 수가 완전히 다를 수 있습니다."
  • 일관성 있고 신뢰성 있는 경로가 중요.
  • "우리는 이걸 '수렴(Convergence)'이라고 부르는데, 실제로 평가하기 가장 어려운 부분 중 하나입니다."

8. 음성 에이전트 평가의 추가 요소 🎧

  • 음성 에이전트는 텍스트뿐 아니라 오디오 자체도 평가해야 함.
  • "음성 어시스턴트 API에서는 오디오 청크가 먼저 전송되고, 그 후에 트랜스크립트가 생성됩니다."
  • 평가 포인트:
    • 사용자 감정(센티먼트)
    • 음성-텍스트 변환 정확도
    • 대화 내내 톤의 일관성
    • 의도 파악, 음성 품질 등
  • "텍스트, 대화 흐름, 오디오까지 모두 따로따로 평가 기준을 세워야 해요."

9. Arize의 실제 평가 사례: Co-pilot 에이전트 🤖

  • Arize의 Co-pilot 에이전트는 사용자가 제품 내에서 자연어로 검색, 요약, 디버깅 등을 요청할 수 있음.
  • "우리는 평가(Eval) 회사이기 때문에, 우리 제품에도 직접 평가를 적용합니다."
  • 각 단계별로 평가(Eval)를 삽입:
    • 전체 응답의 정답 여부
    • 라우터가 올바른 라우터를 선택했는지
    • 올바른 인자를 전달했는지
    • 스킬이 제대로 실행됐는지
  • "중요한 건, 평가가 한 단계에만 있는 게 아니라, 전체 플로우 곳곳에 배치되어 있다는 점입니다."
  • 문제가 발생했을 때, 어느 단계에서 문제가 생겼는지 빠르게 디버깅 가능.

10. 핵심 메시지 & 마무리 🎯

  • 에이전트 평가(Eval)는 전체 플로우에 걸쳐 다층적으로 이루어져야 함.
  • "이 발표에서 한 가지라도 기억해가신다면, 에이전트의 모든 단계에 평가를 넣으라는 점입니다."
  • 문제가 생겼을 때, 라우터, 스킬, 경로, 오디오 등 어느 부분에서 문제가 발생했는지 쉽게 파악할 수 있어야 함.
  • "질문 있으신가요?"로 마무리.

핵심 키워드 요약

  • AI 에이전트 평가
  • 라우터(Router)
  • 스킬(Skill)
  • 메모리(Memory)
  • 멀티모달/음성 에이전트
  • Trace(내부 동작 추적)
  • Convergence(수렴, 경로 일관성)
  • 다층적 평가(Eval)
  • 실제 프로덕션 적용
  • 디버깅 및 신뢰성 확보

"실제 세상에서 우리가 만든 에이전트가 정말로 잘 작동하는지 확인하는 게 정말 중요합니다."

"라우터는 마치 보스처럼, 어떤 스킬을 호출할지 결정합니다."

"에이전트가 이전에 무슨 말을 했는지 잊어버리면 안 되잖아요. 그래서 메모리가 중요합니다."

"라우터가 올바른 스킬을, 올바른 인자와 함께 호출하는지 꼭 평가해야 합니다."

"같은 스킬을 오픈AI로 만들었을 때와 Anthropic으로 만들었을 때, 단계 수가 완전히 다를 수 있습니다."

"이 발표에서 한 가지라도 기억해가신다면, 에이전트의 모든 단계에 평가를 넣으라는 점입니다."


이렇게 AI 에이전트 평가의 전체 구조와 실제 적용 방법을 친절하게 설명해주셨습니다!
에이전트 개발과 운영에 관심 있다면 꼭 참고해보세요. 😊

함께 읽으면 좋은 글

Harvest창업 · AI한국어

(스티브 블랭크) 당신의 스타트업은 아마 ‘시작부터’ 이미 죽어 있었을지도 모른다

이 글은 2년 이상 된 스타트업이라면, 창업 당시의 가정과 시장이 이미 크게 바뀌어 사업 계획·기술 스택·팀 구성이 구식이 되었을 가능성이 높다고 경고합니다. 특히 2025년 이후 AI 중심 투자 쏠림, 바이브 코딩과 에이전트형 AI로 인해 소프트웨어 개발의 속도·비용·경쟁구도가 바뀌면서,...

2026년 4월 15일더 읽기
Harvest엔지니어링 리더십한국어

AWS 최고 엔지니어 Marc Brooker, 3000건 이상의 사고 경험과 AI 시대 소프트웨어 엔지니어링의 변화에 대해 말하다

이 영상은 AWS의 최고 엔지니어인 Marc Brooker가 3,000건 이상의 클라우드 시스템 사고 후 분석(postmortem) 경험을 바탕으로 얻은 기술적 통찰과, AI 시대에 소프트웨어 엔지니어링이 어떻게 변화하고 있는지에 대한 깊이 있는 이야기를 나눈 인터뷰입니다. 그는 중요한 문...

2026년 4월 14일더 읽기
Harvest엔지니어링 리더십한국어

AI 시대, 엔지니어에게 요구되는 새로운 기준

이 영상은 '프래그매틱 엔지니어'의 저자이자 창립자인 거젤리 오로즈와의 대담을 통해 AI 시대의 소프트웨어 엔지니어링 변화와 커리어 전략에 대해 심도 있게 다룹니다. 특히, 우버에서의 혼돈 속 성장에 대한 경험, 성공적인 엔지니어의 특징, 그리고 AI가 코딩 능력을 대체하는 현상에 대한 엔...

2026년 4월 12일더 읽기