1. 도입 및 맥락 설정 🎤

  • Aparna Dhinkaran이 발표를 시작하며, 목소리가 조금 쉬었음을 양해 구함.
  • 오늘의 주제는 AI 에이전트와 어시스턴트의 평가에 관한 것임을 강조.
  • "여러분, 오늘은 정말 중요한 주제에 대해 이야기할 거예요. 바로 AI 에이전트와 어시스턴트를 어떻게 평가할 것인가입니다."
  • 최근 다양한 AI 에이전트가 개발되고, 이를 위한 툴과 방법론이 소개되고 있지만, 실제 프로덕션 환경에서 이들이 제대로 작동하는지 평가하는 것이 매우 중요하다고 설명.
  • "실제 세상에서 우리가 만든 에이전트가 정말로 잘 작동하는지 확인하는 게 정말 중요합니다."
  • 이 발표는 다소 기술적인 내용이 포함될 수 있지만, 리더십 레벨에서도 꼭 알아야 할 내용임을 강조.

2. AI 에이전트의 새로운 트렌드: 멀티모달과 음성 AI 🗣️

  • 대부분의 사람들이 텍스트 기반 에이전트에 익숙하지만, 이제는 음성 AI가 콜센터 등에서 빠르게 확산되고 있음.
  • "음성 AI는 이미 콜센터를 장악하고 있습니다. 전 세계적으로 10억 건이 넘는 콜센터 통화가 음성 어시스턴트로 처리되고 있어요."
  • 실제 사례로 프라이스라인의 Pennybot을 소개. 이 에이전트는 음성만으로 여행 예약이 가능함.
  • "이제는 단순히 텍스트 기반이 아니라, 멀티모달 에이전트 시대입니다."
  • 평가 방식도 에이전트의 형태(텍스트, 음성, 멀티모달)에 따라 달라져야 함을 강조.

3. AI 에이전트의 기본 구성 요소 🧩

  • 에이전트는 보통 세 가지 주요 컴포넌트로 구성됨:
    1. 라우터(Router): 다음에 어떤 행동을 할지 결정하는 '보스' 역할
    2. 스킬(Skill): 실제로 작업을 수행하는 논리적 체인
    3. 메모리(Memory): 대화의 상태와 과거 정보를 저장
  • "라우터는 마치 보스처럼, 어떤 스킬을 호출할지 결정합니다."
  • 다양한 프레임워크(LangGraph, CrewAI, LlamaIndex 등)마다 구현 방식은 다르지만, 라우터-스킬-메모리 구조는 공통적임.
  • "이 세 가지 컴포넌트는 어떤 프레임워크를 쓰든 거의 항상 등장합니다."

4. 라우터(Router)란 무엇인가? 🚦

  • 라우터는 사용자의 요청을 받아, 어떤 스킬을 호출할지 결정.
  • 예시: "나는 반품을 하고 싶어요", "할인 상품이 있나요?" 등 사용자의 질문이 라우터로 들어감.
  • 라우터는 적절한 스킬(예: 고객센터 연결, 할인 정보 제공 등)을 선택해 실행.
  • "라우터가 항상 정답을 고르진 않지만, 최대한 맞게 선택해야 합니다."
  • 라우터가 잘못된 스킬을 호출하면, 전체 플로우가 어긋날 수 있음.

5. 스킬(Skill)과 메모리(Memory)의 역할 🛠️🧠

  • 스킬: 실제로 API 호출, LLM 호출 등 다양한 작업을 수행.
  • "예를 들어, '가장 좋은 레깅스를 추천해줘'라고 하면, 상품 검색 스킬이 실행됩니다."
  • 메모리: 대화가 한 번에 끝나지 않고 여러 번 오갈 때, 이전 정보를 기억.
  • "에이전트가 이전에 무슨 말을 했는지 잊어버리면 안 되잖아요. 그래서 메모리가 중요합니다."

6. 실제 예시: 에이전트의 내부 동작(Trace) 살펴보기 🔍

  • 오픈소스 프로젝트를 통해 에이전트의 내부 동작(Trace)을 시각적으로 보여줌.
  • "이게 바로 여러분의 엔지니어들이 실제로 에이전트를 만들고 디버깅할 때 보는 화면입니다."
  • 예시: 사용자가 "내 트레이스 지연의 원인이 뭐야?"라고 질문 → 라우터가 어떤 스킬을 호출할지 결정 → SQL 쿼리 실행 → 데이터 분석 스킬 호출 → 결과 분석.
  • 여러 번의 라우터 호출이 있을 수 있고, 각 단계마다 메모리가 상태를 저장.

7. 각 컴포넌트별 평가 포인트 📝

1) 라우터 평가

  • 핵심 질문: 라우터가 올바른 스킬을 호출했는가?
  • "예를 들어, 내가 레깅스를 추천해달라고 했는데, 고객센터로 연결되면 안 되겠죠."
  • 스킬 호출 시, 올바른 파라미터(예: 소재, 가격대 등)가 전달되는지도 중요.
  • "라우터가 올바른 스킬을, 올바른 인자와 함께 호출하는지 꼭 평가해야 합니다."

2) 스킬 평가

  • 스킬 내부에는 여러 평가 포인트가 있음.
    • RAG 스킬의 경우: 불러온 정보의 관련성, 정확성
    • LLM 평가 또는 코드 기반 평가 등 다양한 방식 활용
  • "스킬의 정답률, 관련성, 그리고 실제로 원하는 결과를 내는지 꼼꼼히 봐야 해요."

3) 경로(Convergence) 평가

  • 에이전트가 동일한 작업을 수행할 때, 항상 비슷한 단계 수로 끝나는지 확인.
  • "같은 스킬을 오픈AI로 만들었을 때와 Anthropic으로 만들었을 때, 단계 수가 완전히 다를 수 있습니다."
  • 일관성 있고 신뢰성 있는 경로가 중요.
  • "우리는 이걸 '수렴(Convergence)'이라고 부르는데, 실제로 평가하기 가장 어려운 부분 중 하나입니다."

8. 음성 에이전트 평가의 추가 요소 🎧

  • 음성 에이전트는 텍스트뿐 아니라 오디오 자체도 평가해야 함.
  • "음성 어시스턴트 API에서는 오디오 청크가 먼저 전송되고, 그 후에 트랜스크립트가 생성됩니다."
  • 평가 포인트:
    • 사용자 감정(센티먼트)
    • 음성-텍스트 변환 정확도
    • 대화 내내 톤의 일관성
    • 의도 파악, 음성 품질 등
  • "텍스트, 대화 흐름, 오디오까지 모두 따로따로 평가 기준을 세워야 해요."

9. Arize의 실제 평가 사례: Co-pilot 에이전트 🤖

  • Arize의 Co-pilot 에이전트는 사용자가 제품 내에서 자연어로 검색, 요약, 디버깅 등을 요청할 수 있음.
  • "우리는 평가(Eval) 회사이기 때문에, 우리 제품에도 직접 평가를 적용합니다."
  • 각 단계별로 평가(Eval)를 삽입:
    • 전체 응답의 정답 여부
    • 라우터가 올바른 라우터를 선택했는지
    • 올바른 인자를 전달했는지
    • 스킬이 제대로 실행됐는지
  • "중요한 건, 평가가 한 단계에만 있는 게 아니라, 전체 플로우 곳곳에 배치되어 있다는 점입니다."
  • 문제가 발생했을 때, 어느 단계에서 문제가 생겼는지 빠르게 디버깅 가능.

10. 핵심 메시지 & 마무리 🎯

  • 에이전트 평가(Eval)는 전체 플로우에 걸쳐 다층적으로 이루어져야 함.
  • "이 발표에서 한 가지라도 기억해가신다면, 에이전트의 모든 단계에 평가를 넣으라는 점입니다."
  • 문제가 생겼을 때, 라우터, 스킬, 경로, 오디오 등 어느 부분에서 문제가 발생했는지 쉽게 파악할 수 있어야 함.
  • "질문 있으신가요?"로 마무리.

핵심 키워드 요약

  • AI 에이전트 평가
  • 라우터(Router)
  • 스킬(Skill)
  • 메모리(Memory)
  • 멀티모달/음성 에이전트
  • Trace(내부 동작 추적)
  • Convergence(수렴, 경로 일관성)
  • 다층적 평가(Eval)
  • 실제 프로덕션 적용
  • 디버깅 및 신뢰성 확보

"실제 세상에서 우리가 만든 에이전트가 정말로 잘 작동하는지 확인하는 게 정말 중요합니다."

"라우터는 마치 보스처럼, 어떤 스킬을 호출할지 결정합니다."

"에이전트가 이전에 무슨 말을 했는지 잊어버리면 안 되잖아요. 그래서 메모리가 중요합니다."

"라우터가 올바른 스킬을, 올바른 인자와 함께 호출하는지 꼭 평가해야 합니다."

"같은 스킬을 오픈AI로 만들었을 때와 Anthropic으로 만들었을 때, 단계 수가 완전히 다를 수 있습니다."

"이 발표에서 한 가지라도 기억해가신다면, 에이전트의 모든 단계에 평가를 넣으라는 점입니다."


이렇게 AI 에이전트 평가의 전체 구조와 실제 적용 방법을 친절하게 설명해주셨습니다!
에이전트 개발과 운영에 관심 있다면 꼭 참고해보세요. 😊

함께 읽으면 좋은 글

Harvest창업 · AI한국어

Anthropic의 클로드 코드 유출: Conwary를 통한 AI 플랫폼 전쟁과 행동 잠금 현상

이 영상은 Anthropic의 클로드 코드 유출 사건의 본질이 단순한 소스 코드 유출이나 보안 취약점이 아니며, 오히려 Anthropic이 "Conway"라는 상시 작동(always-on) AI 에이전트를 통해 추진하고 있는 거대한 플랫폼 전략을 드러낸다고 주장합니다. Conway는 사용자...

2026년 4월 8일더 읽기
HarvestAI · 데이터와 판단한국어

AI 시대의 아비트리지: 봇이 30일 만에 43만 8천 달러를 벌다.

이 영상은 AI 시대에 접어들면서 우리 경제의 근간을 이루는 '아비트리지(차익거래)'의 개념이 어떻게 변화하고 있는지 설명합니다. AI는 기존의 비효율성(아비트리지 기회)을 빠르게 제거하고 새로운 기회를 창출하며, 이는 모든 산업과 직업에 엄청난 영향을 미치고 있습니다. 영상은 특히 폴리마...

2026년 4월 8일더 읽기
Harvest데이터와 판단한국어

실리콘 샘플링: 여론 조사를 망가뜨릴 새로운 위협 😱

이 글은 인공지능(AI)을 활용한 '실리콘 샘플링'이라는 새로운 여론 조사 방식이 어떻게 대중의 의견을 왜곡하고 정보 생태계를 위협하는지에 대해 경고하고 있어요. 전통적인 여론 조사의 한계점을 짚으면서, 실리콘 샘플링이 가진 문제점과 그로 인해 발생할 수 있는 심각한 사회적 파장을 자세히...

2026년 4월 7일더 읽기