AI 에이전트가 실제로 작동하는지 확인하는 방법: 성공을 확장하는 평가 프레임워크 — Aparna Dhinkaran, Arize CEO

1. 도입 및 맥락 설정 🎤

Aparna Dhinkaran이 발표를 시작하며, 목소리가 조금 쉬었음을 양해 구함.
오늘의 주제는 AI 에이전트와 어시스턴트의 평가에 관한 것임을 강조.
"여러분, 오늘은 정말 중요한 주제에 대해 이야기할 거예요. 바로 AI 에이전트와 어시스턴트를 어떻게 평가할 것인가입니다."
최근 다양한 AI 에이전트가 개발되고, 이를 위한 툴과 방법론이 소개되고 있지만, 실제 프로덕션 환경에서 이들이 제대로 작동하는지 평가하는 것이 매우 중요하다고 설명.
"실제 세상에서 우리가 만든 에이전트가 정말로 잘 작동하는지 확인하는 게 정말 중요합니다."
이 발표는 다소 기술적인 내용이 포함될 수 있지만, 리더십 레벨에서도 꼭 알아야 할 내용임을 강조.

2. AI 에이전트의 새로운 트렌드: 멀티모달과 음성 AI 🗣️

대부분의 사람들이 텍스트 기반 에이전트에 익숙하지만, 이제는 음성 AI가 콜센터 등에서 빠르게 확산되고 있음.
"음성 AI는 이미 콜센터를 장악하고 있습니다. 전 세계적으로 10억 건이 넘는 콜센터 통화가 음성 어시스턴트로 처리되고 있어요."
실제 사례로 프라이스라인의 Pennybot을 소개. 이 에이전트는 음성만으로 여행 예약이 가능함.
"이제는 단순히 텍스트 기반이 아니라, 멀티모달 에이전트 시대입니다."
평가 방식도 에이전트의 형태(텍스트, 음성, 멀티모달)에 따라 달라져야 함을 강조.

3. AI 에이전트의 기본 구성 요소 🧩

에이전트는 보통 세 가지 주요 컴포넌트로 구성됨:
1. 라우터(Router): 다음에 어떤 행동을 할지 결정하는 '보스' 역할
2. 스킬(Skill): 실제로 작업을 수행하는 논리적 체인
3. 메모리(Memory): 대화의 상태와 과거 정보를 저장
"라우터는 마치 보스처럼, 어떤 스킬을 호출할지 결정합니다."
다양한 프레임워크(LangGraph, CrewAI, LlamaIndex 등)마다 구현 방식은 다르지만, 라우터-스킬-메모리 구조는 공통적임.
"이 세 가지 컴포넌트는 어떤 프레임워크를 쓰든 거의 항상 등장합니다."

4. 라우터(Router)란 무엇인가? 🚦

라우터는 사용자의 요청을 받아, 어떤 스킬을 호출할지 결정.
예시: "나는 반품을 하고 싶어요", "할인 상품이 있나요?" 등 사용자의 질문이 라우터로 들어감.
라우터는 적절한 스킬(예: 고객센터 연결, 할인 정보 제공 등)을 선택해 실행.
"라우터가 항상 정답을 고르진 않지만, 최대한 맞게 선택해야 합니다."
라우터가 잘못된 스킬을 호출하면, 전체 플로우가 어긋날 수 있음.

5. 스킬(Skill)과 메모리(Memory)의 역할 🛠️🧠

스킬: 실제로 API 호출, LLM 호출 등 다양한 작업을 수행.
"예를 들어, '가장 좋은 레깅스를 추천해줘'라고 하면, 상품 검색 스킬이 실행됩니다."
메모리: 대화가 한 번에 끝나지 않고 여러 번 오갈 때, 이전 정보를 기억.
"에이전트가 이전에 무슨 말을 했는지 잊어버리면 안 되잖아요. 그래서 메모리가 중요합니다."

6. 실제 예시: 에이전트의 내부 동작(Trace) 살펴보기 🔍

오픈소스 프로젝트를 통해 에이전트의 내부 동작(Trace)을 시각적으로 보여줌.
"이게 바로 여러분의 엔지니어들이 실제로 에이전트를 만들고 디버깅할 때 보는 화면입니다."
예시: 사용자가 "내 트레이스 지연의 원인이 뭐야?"라고 질문 → 라우터가 어떤 스킬을 호출할지 결정 → SQL 쿼리 실행 → 데이터 분석 스킬 호출 → 결과 분석.
여러 번의 라우터 호출이 있을 수 있고, 각 단계마다 메모리가 상태를 저장.

7. 각 컴포넌트별 평가 포인트 📝

1) 라우터 평가

핵심 질문: 라우터가 올바른 스킬을 호출했는가?
"예를 들어, 내가 레깅스를 추천해달라고 했는데, 고객센터로 연결되면 안 되겠죠."
스킬 호출 시, 올바른 파라미터(예: 소재, 가격대 등)가 전달되는지도 중요.
"라우터가 올바른 스킬을, 올바른 인자와 함께 호출하는지 꼭 평가해야 합니다."

2) 스킬 평가

스킬 내부에는 여러 평가 포인트가 있음.
- RAG 스킬의 경우: 불러온 정보의 관련성, 정확성 등
- LLM 평가 또는 코드 기반 평가 등 다양한 방식 활용
"스킬의 정답률, 관련성, 그리고 실제로 원하는 결과를 내는지 꼼꼼히 봐야 해요."

3) 경로(Convergence) 평가

에이전트가 동일한 작업을 수행할 때, 항상 비슷한 단계 수로 끝나는지 확인.
"같은 스킬을 오픈AI로 만들었을 때와 Anthropic으로 만들었을 때, 단계 수가 완전히 다를 수 있습니다."
일관성 있고 신뢰성 있는 경로가 중요.
"우리는 이걸 '수렴(Convergence)'이라고 부르는데, 실제로 평가하기 가장 어려운 부분 중 하나입니다."

8. 음성 에이전트 평가의 추가 요소 🎧

음성 에이전트는 텍스트뿐 아니라 오디오 자체도 평가해야 함.
"음성 어시스턴트 API에서는 오디오 청크가 먼저 전송되고, 그 후에 트랜스크립트가 생성됩니다."
평가 포인트:
- 사용자 감정(센티먼트)
- 음성-텍스트 변환 정확도
- 대화 내내 톤의 일관성
- 의도 파악, 음성 품질 등
"텍스트, 대화 흐름, 오디오까지 모두 따로따로 평가 기준을 세워야 해요."

9. Arize의 실제 평가 사례: Co-pilot 에이전트 🤖

Arize의 Co-pilot 에이전트는 사용자가 제품 내에서 자연어로 검색, 요약, 디버깅 등을 요청할 수 있음.
"우리는 평가(Eval) 회사이기 때문에, 우리 제품에도 직접 평가를 적용합니다."
각 단계별로 평가(Eval)를 삽입:
- 전체 응답의 정답 여부
- 라우터가 올바른 라우터를 선택했는지
- 올바른 인자를 전달했는지
- 스킬이 제대로 실행됐는지
"중요한 건, 평가가 한 단계에만 있는 게 아니라, 전체 플로우 곳곳에 배치되어 있다는 점입니다."
문제가 발생했을 때, 어느 단계에서 문제가 생겼는지 빠르게 디버깅 가능.

10. 핵심 메시지 & 마무리 🎯

에이전트 평가(Eval)는 전체 플로우에 걸쳐 다층적으로 이루어져야 함.
"이 발표에서 한 가지라도 기억해가신다면, 에이전트의 모든 단계에 평가를 넣으라는 점입니다."
문제가 생겼을 때, 라우터, 스킬, 경로, 오디오 등 어느 부분에서 문제가 발생했는지 쉽게 파악할 수 있어야 함.
"질문 있으신가요?"로 마무리.

핵심 키워드 요약

AI 에이전트 평가
라우터(Router)
스킬(Skill)
메모리(Memory)
멀티모달/음성 에이전트
Trace(내부 동작 추적)
Convergence(수렴, 경로 일관성)
다층적 평가(Eval)
실제 프로덕션 적용
디버깅 및 신뢰성 확보

"실제 세상에서 우리가 만든 에이전트가 정말로 잘 작동하는지 확인하는 게 정말 중요합니다."

"라우터는 마치 보스처럼, 어떤 스킬을 호출할지 결정합니다."

"에이전트가 이전에 무슨 말을 했는지 잊어버리면 안 되잖아요. 그래서 메모리가 중요합니다."

"라우터가 올바른 스킬을, 올바른 인자와 함께 호출하는지 꼭 평가해야 합니다."

"같은 스킬을 오픈AI로 만들었을 때와 Anthropic으로 만들었을 때, 단계 수가 완전히 다를 수 있습니다."

"이 발표에서 한 가지라도 기억해가신다면, 에이전트의 모든 단계에 평가를 넣으라는 점입니다."

이렇게 AI 에이전트 평가의 전체 구조와 실제 적용 방법을 친절하게 설명해주셨습니다!
에이전트 개발과 운영에 관심 있다면 꼭 참고해보세요. 😊

1. 도입 및 맥락 설정 🎤

Aparna Dhinkaran이 발표를 시작하며, 목소리가 조금 쉬었음을 양해 구함.
오늘의 주제는 AI 에이전트와 어시스턴트의 평가에 관한 것임을 강조.
"여러분, 오늘은 정말 중요한 주제에 대해 이야기할 거예요. 바로 AI 에이전트와 어시스턴트를 어떻게 평가할 것인가입니다."
최근 다양한 AI 에이전트가 개발되고, 이를 위한 툴과 방법론이 소개되고 있지만, 실제 프로덕션 환경에서 이들이 제대로 작동하는지 평가하는 것이 매우 중요하다고 설명.
"실제 세상에서 우리가 만든 에이전트가 정말로 잘 작동하는지 확인하는 게 정말 중요합니다."
이 발표는 다소 기술적인 내용이 포함될 수 있지만, 리더십 레벨에서도 꼭 알아야 할 내용임을 강조.

2. AI 에이전트의 새로운 트렌드: 멀티모달과 음성 AI 🗣️

대부분의 사람들이 텍스트 기반 에이전트에 익숙하지만, 이제는 음성 AI가 콜센터 등에서 빠르게 확산되고 있음.
"음성 AI는 이미 콜센터를 장악하고 있습니다. 전 세계적으로 10억 건이 넘는 콜센터 통화가 음성 어시스턴트로 처리되고 있어요."
실제 사례로 프라이스라인의 Pennybot을 소개. 이 에이전트는 음성만으로 여행 예약이 가능함.
"이제는 단순히 텍스트 기반이 아니라, 멀티모달 에이전트 시대입니다."
평가 방식도 에이전트의 형태(텍스트, 음성, 멀티모달)에 따라 달라져야 함을 강조.

3. AI 에이전트의 기본 구성 요소 🧩

에이전트는 보통 세 가지 주요 컴포넌트로 구성됨:
1. 라우터(Router): 다음에 어떤 행동을 할지 결정하는 '보스' 역할
2. 스킬(Skill): 실제로 작업을 수행하는 논리적 체인
3. 메모리(Memory): 대화의 상태와 과거 정보를 저장
"라우터는 마치 보스처럼, 어떤 스킬을 호출할지 결정합니다."
다양한 프레임워크(LangGraph, CrewAI, LlamaIndex 등)마다 구현 방식은 다르지만, 라우터-스킬-메모리 구조는 공통적임.
"이 세 가지 컴포넌트는 어떤 프레임워크를 쓰든 거의 항상 등장합니다."

4. 라우터(Router)란 무엇인가? 🚦

라우터는 사용자의 요청을 받아, 어떤 스킬을 호출할지 결정.
예시: "나는 반품을 하고 싶어요", "할인 상품이 있나요?" 등 사용자의 질문이 라우터로 들어감.
라우터는 적절한 스킬(예: 고객센터 연결, 할인 정보 제공 등)을 선택해 실행.
"라우터가 항상 정답을 고르진 않지만, 최대한 맞게 선택해야 합니다."
라우터가 잘못된 스킬을 호출하면, 전체 플로우가 어긋날 수 있음.

5. 스킬(Skill)과 메모리(Memory)의 역할 🛠️🧠

스킬: 실제로 API 호출, LLM 호출 등 다양한 작업을 수행.
"예를 들어, '가장 좋은 레깅스를 추천해줘'라고 하면, 상품 검색 스킬이 실행됩니다."
메모리: 대화가 한 번에 끝나지 않고 여러 번 오갈 때, 이전 정보를 기억.
"에이전트가 이전에 무슨 말을 했는지 잊어버리면 안 되잖아요. 그래서 메모리가 중요합니다."

6. 실제 예시: 에이전트의 내부 동작(Trace) 살펴보기 🔍

오픈소스 프로젝트를 통해 에이전트의 내부 동작(Trace)을 시각적으로 보여줌.
"이게 바로 여러분의 엔지니어들이 실제로 에이전트를 만들고 디버깅할 때 보는 화면입니다."
예시: 사용자가 "내 트레이스 지연의 원인이 뭐야?"라고 질문 → 라우터가 어떤 스킬을 호출할지 결정 → SQL 쿼리 실행 → 데이터 분석 스킬 호출 → 결과 분석.
여러 번의 라우터 호출이 있을 수 있고, 각 단계마다 메모리가 상태를 저장.

7. 각 컴포넌트별 평가 포인트 📝

1) 라우터 평가

핵심 질문: 라우터가 올바른 스킬을 호출했는가?
"예를 들어, 내가 레깅스를 추천해달라고 했는데, 고객센터로 연결되면 안 되겠죠."
스킬 호출 시, 올바른 파라미터(예: 소재, 가격대 등)가 전달되는지도 중요.
"라우터가 올바른 스킬을, 올바른 인자와 함께 호출하는지 꼭 평가해야 합니다."

2) 스킬 평가

스킬 내부에는 여러 평가 포인트가 있음.
- RAG 스킬의 경우: 불러온 정보의 관련성, 정확성 등
- LLM 평가 또는 코드 기반 평가 등 다양한 방식 활용
"스킬의 정답률, 관련성, 그리고 실제로 원하는 결과를 내는지 꼼꼼히 봐야 해요."

3) 경로(Convergence) 평가

에이전트가 동일한 작업을 수행할 때, 항상 비슷한 단계 수로 끝나는지 확인.
"같은 스킬을 오픈AI로 만들었을 때와 Anthropic으로 만들었을 때, 단계 수가 완전히 다를 수 있습니다."
일관성 있고 신뢰성 있는 경로가 중요.
"우리는 이걸 '수렴(Convergence)'이라고 부르는데, 실제로 평가하기 가장 어려운 부분 중 하나입니다."

8. 음성 에이전트 평가의 추가 요소 🎧

음성 에이전트는 텍스트뿐 아니라 오디오 자체도 평가해야 함.
"음성 어시스턴트 API에서는 오디오 청크가 먼저 전송되고, 그 후에 트랜스크립트가 생성됩니다."
평가 포인트:
- 사용자 감정(센티먼트)
- 음성-텍스트 변환 정확도
- 대화 내내 톤의 일관성
- 의도 파악, 음성 품질 등
"텍스트, 대화 흐름, 오디오까지 모두 따로따로 평가 기준을 세워야 해요."

9. Arize의 실제 평가 사례: Co-pilot 에이전트 🤖

Arize의 Co-pilot 에이전트는 사용자가 제품 내에서 자연어로 검색, 요약, 디버깅 등을 요청할 수 있음.
"우리는 평가(Eval) 회사이기 때문에, 우리 제품에도 직접 평가를 적용합니다."
각 단계별로 평가(Eval)를 삽입:
- 전체 응답의 정답 여부
- 라우터가 올바른 라우터를 선택했는지
- 올바른 인자를 전달했는지
- 스킬이 제대로 실행됐는지
"중요한 건, 평가가 한 단계에만 있는 게 아니라, 전체 플로우 곳곳에 배치되어 있다는 점입니다."
문제가 발생했을 때, 어느 단계에서 문제가 생겼는지 빠르게 디버깅 가능.

10. 핵심 메시지 & 마무리 🎯

에이전트 평가(Eval)는 전체 플로우에 걸쳐 다층적으로 이루어져야 함.
"이 발표에서 한 가지라도 기억해가신다면, 에이전트의 모든 단계에 평가를 넣으라는 점입니다."
문제가 생겼을 때, 라우터, 스킬, 경로, 오디오 등 어느 부분에서 문제가 발생했는지 쉽게 파악할 수 있어야 함.
"질문 있으신가요?"로 마무리.

핵심 키워드 요약

AI 에이전트 평가
라우터(Router)
스킬(Skill)
메모리(Memory)
멀티모달/음성 에이전트
Trace(내부 동작 추적)
Convergence(수렴, 경로 일관성)
다층적 평가(Eval)
실제 프로덕션 적용
디버깅 및 신뢰성 확보

"실제 세상에서 우리가 만든 에이전트가 정말로 잘 작동하는지 확인하는 게 정말 중요합니다."

"라우터는 마치 보스처럼, 어떤 스킬을 호출할지 결정합니다."

"에이전트가 이전에 무슨 말을 했는지 잊어버리면 안 되잖아요. 그래서 메모리가 중요합니다."

"라우터가 올바른 스킬을, 올바른 인자와 함께 호출하는지 꼭 평가해야 합니다."

"같은 스킬을 오픈AI로 만들었을 때와 Anthropic으로 만들었을 때, 단계 수가 완전히 다를 수 있습니다."

"이 발표에서 한 가지라도 기억해가신다면, 에이전트의 모든 단계에 평가를 넣으라는 점입니다."

이렇게 AI 에이전트 평가의 전체 구조와 실제 적용 방법을 친절하게 설명해주셨습니다!
에이전트 개발과 운영에 관심 있다면 꼭 참고해보세요. 😊

1. 도입 및 맥락 설정 🎤

2. AI 에이전트의 새로운 트렌드: 멀티모달과 음성 AI 🗣️

3. AI 에이전트의 기본 구성 요소 🧩

4. 라우터(Router)란 무엇인가? 🚦

5. 스킬(Skill)과 메모리(Memory)의 역할 🛠️🧠

6. 실제 예시: 에이전트의 내부 동작(Trace) 살펴보기 🔍

7. 각 컴포넌트별 평가 포인트 📝

1) 라우터 평가

2) 스킬 평가

3) 경로(Convergence) 평가

8. 음성 에이전트 평가의 추가 요소 🎧

9. Arize의 실제 평가 사례: Co-pilot 에이전트 🤖

10. 핵심 메시지 & 마무리 🎯

핵심 키워드 요약

함께 읽으면 좋은 글

허깅페이스 CEO, 기업들이 AI 임대를 중단하는 이유

데이터센터에서 AI 토큰이 이동하는 여정 🚀

AI 시대, 1인 창업의 현실과 성공 전략

읽은 것

1. 도입 및 맥락 설정 🎤

2. AI 에이전트의 새로운 트렌드: 멀티모달과 음성 AI 🗣️

3. AI 에이전트의 기본 구성 요소 🧩

4. 라우터(Router)란 무엇인가? 🚦

5. 스킬(Skill)과 메모리(Memory)의 역할 🛠️🧠

6. 실제 예시: 에이전트의 내부 동작(Trace) 살펴보기 🔍

7. 각 컴포넌트별 평가 포인트 📝

1) 라우터 평가

2) 스킬 평가

3) 경로(Convergence) 평가

8. 음성 에이전트 평가의 추가 요소 🎧

9. Arize의 실제 평가 사례: Co-pilot 에이전트 🤖

10. 핵심 메시지 & 마무리 🎯

핵심 키워드 요약

함께 읽으면 좋은 글

허깅페이스 CEO, 기업들이 AI 임대를 중단하는 이유

데이터센터에서 AI 토큰이 이동하는 여정 🚀

AI 시대, 1인 창업의 현실과 성공 전략