1. 도입 및 맥락 설정 🎤

  • Aparna Dhinkaran이 발표를 시작하며, 목소리가 조금 쉬었음을 양해 구함.
  • 오늘의 주제는 AI 에이전트와 어시스턴트의 평가에 관한 것임을 강조.
  • "여러분, 오늘은 정말 중요한 주제에 대해 이야기할 거예요. 바로 AI 에이전트와 어시스턴트를 어떻게 평가할 것인가입니다."
  • 최근 다양한 AI 에이전트가 개발되고, 이를 위한 툴과 방법론이 소개되고 있지만, 실제 프로덕션 환경에서 이들이 제대로 작동하는지 평가하는 것이 매우 중요하다고 설명.
  • "실제 세상에서 우리가 만든 에이전트가 정말로 잘 작동하는지 확인하는 게 정말 중요합니다."
  • 이 발표는 다소 기술적인 내용이 포함될 수 있지만, 리더십 레벨에서도 꼭 알아야 할 내용임을 강조.

2. AI 에이전트의 새로운 트렌드: 멀티모달과 음성 AI 🗣️

  • 대부분의 사람들이 텍스트 기반 에이전트에 익숙하지만, 이제는 음성 AI가 콜센터 등에서 빠르게 확산되고 있음.
  • "음성 AI는 이미 콜센터를 장악하고 있습니다. 전 세계적으로 10억 건이 넘는 콜센터 통화가 음성 어시스턴트로 처리되고 있어요."
  • 실제 사례로 프라이스라인의 Pennybot을 소개. 이 에이전트는 음성만으로 여행 예약이 가능함.
  • "이제는 단순히 텍스트 기반이 아니라, 멀티모달 에이전트 시대입니다."
  • 평가 방식도 에이전트의 형태(텍스트, 음성, 멀티모달)에 따라 달라져야 함을 강조.

3. AI 에이전트의 기본 구성 요소 🧩

  • 에이전트는 보통 세 가지 주요 컴포넌트로 구성됨:
    1. 라우터(Router): 다음에 어떤 행동을 할지 결정하는 '보스' 역할
    2. 스킬(Skill): 실제로 작업을 수행하는 논리적 체인
    3. 메모리(Memory): 대화의 상태와 과거 정보를 저장
  • "라우터는 마치 보스처럼, 어떤 스킬을 호출할지 결정합니다."
  • 다양한 프레임워크(LangGraph, CrewAI, LlamaIndex 등)마다 구현 방식은 다르지만, 라우터-스킬-메모리 구조는 공통적임.
  • "이 세 가지 컴포넌트는 어떤 프레임워크를 쓰든 거의 항상 등장합니다."

4. 라우터(Router)란 무엇인가? 🚦

  • 라우터는 사용자의 요청을 받아, 어떤 스킬을 호출할지 결정.
  • 예시: "나는 반품을 하고 싶어요", "할인 상품이 있나요?" 등 사용자의 질문이 라우터로 들어감.
  • 라우터는 적절한 스킬(예: 고객센터 연결, 할인 정보 제공 등)을 선택해 실행.
  • "라우터가 항상 정답을 고르진 않지만, 최대한 맞게 선택해야 합니다."
  • 라우터가 잘못된 스킬을 호출하면, 전체 플로우가 어긋날 수 있음.

5. 스킬(Skill)과 메모리(Memory)의 역할 🛠️🧠

  • 스킬: 실제로 API 호출, LLM 호출 등 다양한 작업을 수행.
  • "예를 들어, '가장 좋은 레깅스를 추천해줘'라고 하면, 상품 검색 스킬이 실행됩니다."
  • 메모리: 대화가 한 번에 끝나지 않고 여러 번 오갈 때, 이전 정보를 기억.
  • "에이전트가 이전에 무슨 말을 했는지 잊어버리면 안 되잖아요. 그래서 메모리가 중요합니다."

6. 실제 예시: 에이전트의 내부 동작(Trace) 살펴보기 🔍

  • 오픈소스 프로젝트를 통해 에이전트의 내부 동작(Trace)을 시각적으로 보여줌.
  • "이게 바로 여러분의 엔지니어들이 실제로 에이전트를 만들고 디버깅할 때 보는 화면입니다."
  • 예시: 사용자가 "내 트레이스 지연의 원인이 뭐야?"라고 질문 → 라우터가 어떤 스킬을 호출할지 결정 → SQL 쿼리 실행 → 데이터 분석 스킬 호출 → 결과 분석.
  • 여러 번의 라우터 호출이 있을 수 있고, 각 단계마다 메모리가 상태를 저장.

7. 각 컴포넌트별 평가 포인트 📝

1) 라우터 평가

  • 핵심 질문: 라우터가 올바른 스킬을 호출했는가?
  • "예를 들어, 내가 레깅스를 추천해달라고 했는데, 고객센터로 연결되면 안 되겠죠."
  • 스킬 호출 시, 올바른 파라미터(예: 소재, 가격대 등)가 전달되는지도 중요.
  • "라우터가 올바른 스킬을, 올바른 인자와 함께 호출하는지 꼭 평가해야 합니다."

2) 스킬 평가

  • 스킬 내부에는 여러 평가 포인트가 있음.
    • RAG 스킬의 경우: 불러온 정보의 관련성, 정확성
    • LLM 평가 또는 코드 기반 평가 등 다양한 방식 활용
  • "스킬의 정답률, 관련성, 그리고 실제로 원하는 결과를 내는지 꼼꼼히 봐야 해요."

3) 경로(Convergence) 평가

  • 에이전트가 동일한 작업을 수행할 때, 항상 비슷한 단계 수로 끝나는지 확인.
  • "같은 스킬을 오픈AI로 만들었을 때와 Anthropic으로 만들었을 때, 단계 수가 완전히 다를 수 있습니다."
  • 일관성 있고 신뢰성 있는 경로가 중요.
  • "우리는 이걸 '수렴(Convergence)'이라고 부르는데, 실제로 평가하기 가장 어려운 부분 중 하나입니다."

8. 음성 에이전트 평가의 추가 요소 🎧

  • 음성 에이전트는 텍스트뿐 아니라 오디오 자체도 평가해야 함.
  • "음성 어시스턴트 API에서는 오디오 청크가 먼저 전송되고, 그 후에 트랜스크립트가 생성됩니다."
  • 평가 포인트:
    • 사용자 감정(센티먼트)
    • 음성-텍스트 변환 정확도
    • 대화 내내 톤의 일관성
    • 의도 파악, 음성 품질 등
  • "텍스트, 대화 흐름, 오디오까지 모두 따로따로 평가 기준을 세워야 해요."

9. Arize의 실제 평가 사례: Co-pilot 에이전트 🤖

  • Arize의 Co-pilot 에이전트는 사용자가 제품 내에서 자연어로 검색, 요약, 디버깅 등을 요청할 수 있음.
  • "우리는 평가(Eval) 회사이기 때문에, 우리 제품에도 직접 평가를 적용합니다."
  • 각 단계별로 평가(Eval)를 삽입:
    • 전체 응답의 정답 여부
    • 라우터가 올바른 라우터를 선택했는지
    • 올바른 인자를 전달했는지
    • 스킬이 제대로 실행됐는지
  • "중요한 건, 평가가 한 단계에만 있는 게 아니라, 전체 플로우 곳곳에 배치되어 있다는 점입니다."
  • 문제가 발생했을 때, 어느 단계에서 문제가 생겼는지 빠르게 디버깅 가능.

10. 핵심 메시지 & 마무리 🎯

  • 에이전트 평가(Eval)는 전체 플로우에 걸쳐 다층적으로 이루어져야 함.
  • "이 발표에서 한 가지라도 기억해가신다면, 에이전트의 모든 단계에 평가를 넣으라는 점입니다."
  • 문제가 생겼을 때, 라우터, 스킬, 경로, 오디오 등 어느 부분에서 문제가 발생했는지 쉽게 파악할 수 있어야 함.
  • "질문 있으신가요?"로 마무리.

핵심 키워드 요약

  • AI 에이전트 평가
  • 라우터(Router)
  • 스킬(Skill)
  • 메모리(Memory)
  • 멀티모달/음성 에이전트
  • Trace(내부 동작 추적)
  • Convergence(수렴, 경로 일관성)
  • 다층적 평가(Eval)
  • 실제 프로덕션 적용
  • 디버깅 및 신뢰성 확보

"실제 세상에서 우리가 만든 에이전트가 정말로 잘 작동하는지 확인하는 게 정말 중요합니다."

"라우터는 마치 보스처럼, 어떤 스킬을 호출할지 결정합니다."

"에이전트가 이전에 무슨 말을 했는지 잊어버리면 안 되잖아요. 그래서 메모리가 중요합니다."

"라우터가 올바른 스킬을, 올바른 인자와 함께 호출하는지 꼭 평가해야 합니다."

"같은 스킬을 오픈AI로 만들었을 때와 Anthropic으로 만들었을 때, 단계 수가 완전히 다를 수 있습니다."

"이 발표에서 한 가지라도 기억해가신다면, 에이전트의 모든 단계에 평가를 넣으라는 점입니다."


이렇게 AI 에이전트 평가의 전체 구조와 실제 적용 방법을 친절하게 설명해주셨습니다!
에이전트 개발과 운영에 관심 있다면 꼭 참고해보세요. 😊

함께 읽으면 좋은 글

함께 읽으면 좋은 글

HarvestAI한국어

에이전트가 ‘코딩’하고, 연구가 ‘루프’를 돌기 시작한 시대: 안드레이 카파시 대담 요약

안드레이 카파시는 최근 몇 달 사이 코딩 에이전트의 도약으로 인해, 사람이 직접 코드를 치기보다 “에이전트에게 의도를 전달하는 일”이 핵심이 됐다고 말합니다. 그는 이 흐름이 오토리서치(AutoResearch)처럼 “실험–학습–최적화”를 사람이 거의 개입하지 않고 굴리는 자율 연구 루프로...

2026년 3월 21일더 읽기
HarvestAI한국어

Claude 코드 서브 에이전트 vs 에이전트 팀: 무엇이 다를까요?

이 영상은 Shaw Talebi가 Claude 코드의 서브 에이전트와 에이전트 팀 기능을 자세히 설명하고, 실제 작업에 이 두 접근 방식을 비교하는 실험 결과를 공유합니다. 영상은 Claude 코드의 기본 개념부터 시작하여 AI 에이전트가 직면하는 문맥 처리의 한계, 그리고 이를 극복하기...

2026년 3월 16일더 읽기
HarvestAI한국어

'SaaS는 죽었다' 월 10억 SaaS 창업가의 경고, 알렉스 베커(Alex Becker) 요약

이 영상은 'SaaS는 죽었다'고 경고하는 월 10억 매출의 SaaS 창업가, 알렉스 베커의 인사이트를 담고 있습니다. AI 시대에 코딩 장벽이 낮아지면서 SaaS 시장의 변화를 예측하고, 기존 SaaS 모델의 위기와 미래 지향적인 사업 구조를 제시합니다. 특히, 기업들이 왜 거대한 올인원...

2026년 3월 15일더 읽기