최신 대규모 언어모델 기반의 AI 에이전트 개발과 평가를 위한 ARE(Agents Research Environments) 플랫폼과 그 위에서 동작하는 Gaia2 벤치마크가 제안되었습니다. 이 시스템은 실제 환경을 모방한 다양한 시뮬레이션, 도구, 앱들로 구성된 환경에서 에이전트를 효율적으로 생성·실험·평가할 수 있도록 하며, Gaia2는 이런 환경에서 에이전트가 실제 업무에서 필요로 하는 일반적 능력을 평가합니다. 주요 결과로, 더 똑똑한(추론 능력이 강한) 모델일수록 효율과 반응속도의 한계를 보였으며, 실전에서 쓸모 있는 '지능'은 단순한 정확도가 아니라 효율성·적응성·협력능력임을 강조합니다.
1. ARE: 대규모 에이전트 환경 및 평가 플랫폼의 등장
Meta Superintelligence Labs는 ARE(Agents Research Environments) 플랫폼을 공개하며, 확장성 높은 환경 생성, 실제 또는 합성 앱 통합, 에이전트 오케스트레이션(조율) 실행을 지원한다고 소개합니다.
ARE의 가장 큰 특징은 다양한 도구·규칙·콘텐츠를 갖춘 복잡한 환경을 손쉽게 만들 수 있고, 각 환경 안에서 자동화된 검증 기법까지 지원한다는 점입니다. 이로써 기존 모델 개발과 실제 현장 간의 갭을 줄이고, AI 에이전트의 발전과 활용 가능성을 크게 높였습니다.
"ARE는 다양한 환경을 쉽고 빠르게 만들 수 있는 추상화를 제공하고, 이를 통한 벤치마크 확장 능력은 모델개발과 실제 적용 간의 격차를 빠르게 줄여준다."
특히, Gaia2 벤치마크를 ARE 위에 구현하여, 단순 실행과 검색을 넘어 모호성·잡음 대응, 환경 변화에 적응, 다중 에이전트 협력, 시간제약 하의 작업 등 실제적 역량을 종합적으로 평가합니다.
2. ARE의 구조 및 핵심 개념
ARE는 시간 기반 시뮬레이션을 중심에 두며, 모든 변화(이벤트)가 독립적으로 기록되고, 환경과 에이전트가 철저히 분리되어 비동기적으로 작동합니다.
2.1. ARE의 5대 기본 요소
- 앱(Apps): 데이터에 직접 접근·수정하는 도구의 집합. (예: 이메일, 채팅 등)
- 환경(Environments): 앱들과 데이터를 포함하며 규칙이 적용되는 실제 세계의 축소판.
- 이벤트(Events): 환경 내에서 발생하는 모든 사건. 시간순서로 철저히 기록됨.
- 알림(Notifications): 이벤트가 에이전트에 전달되는 방식, 알림 정책에 따라 환경의 가시성이 조절됨.
- 시나리오(Scenarios): 초기 상태와 이벤트가 예약되어 있으며, 실세계 복잡성을 반영한 평가 단위.
이 구조를 통해 사용자는 실세계에서 발생할 환경 변화와 사용자의 다양한 요청, 그에 따른 에이전트의 적응 능력을 세밀하게 실험할 수 있습니다.
"ARE 환경은 이벤트 기반, 시간 흐름이 독립적으로 진행되는 시뮬레이션이다. 에이전트와 사용자 모두 같은 인터페이스로 소통하며, 모든 상호작용 기록과 디버깅이 가능하다."
3. Gaia2: 진짜 에이전트를 위한 종합 벤치마크
Gaia2는 스마트폰 환경을 모사한 10개 '유니버스'에서 총 1,120개 시나리오로 구성되며, 실제 사용 사례에 가까운 앱과 콘텐츠가 포함됩니다. ARE의 강력한 시뮬레이션 기능으로, 에이전트가 시간 흐름, 이벤트 변화, 도구 사용, 다중 에이전트 협력 등 실제 업무 능력을 종합적으로 평가받게 됩니다.
3.1. 평가되는 7가지 핵심 역량
- 검색(Search): 여러 곳의 정보 탐색·수집·통합
- 실행(Execution): 복수의 작업(쓰기, 변경) 순차적/병렬 실행
- 적응력(Adaptability): 환경 변화(새 이메일, 메시지 등) 실시간 감지 및 전략 수정
- 시간관리(Time): 정해진 시간 내 작업 처리 및 시간 의존적 이벤트 대응
- 모호성 처리(Ambiguity): 불명확하거나 복수의 답이 가능한 요청을 인식하고 질문
- 다중 에이전트 협력(Agent2Agent): 앱이 '서브 에이전트'화된 상황에서 의사소통과 역할 분담
- 노이즈 저항력(Noise): 도구/서비스 오류, 불필요한 이벤트 등 진짜 환경의 잡음 속에서도 안정적으로 임무 수행
"에이전트는 환경 내 동적 이벤트에 맞춰 전략을 즉시 바꿔야 하며, 여러 하위 에이전트와 소통하여 복잡한 실제 업무를 해결해야 한다."
시나리오 생성과 검증 과정은 철저하게 설계되어, 모든 에이전트의 행동은 미리 설계된 '정답 경로(oracle action)'와의 일치 여부로 자동 평가됩니다.
4. ARE의 검증 시스템과 에이전트 운영 방식
ARE는 각각의 에이전트 작성(쓰기) 행위를 루브릭 방식(정답 예시와의 구조적 비교)으로 평가합니다. 단순 실행 여부만 보는 것이 아니라, 행위의 순서, 조건 충족 여부, 시간 제약까지 모두 따지죠.
"정답과 정확히 일치하는 작업은 하드 체크, 메시지 내용처럼 융통성이 필요한 부분은 LLM 기반 소프트 체크를 적용하였다."
또한 멀티턴 시나리오에서는 턴별 검증과 조건별 이벤트 트리거, 온라인 검증 등 체계적인 실행이 이뤄집니다.
에이전트 실행은 표준 ReAct 루프에, 비동기적 알림·툴 사용·결과 검증을 조합하는 조율(Orchestration) 방식을 도입하여, 실제 운영에 가까운 에이전트 행동을 실현할 수 있도록 했습니다.
5. 실험 결과: 최첨단 LLM 에이전트의 한계와 통찰
5.1 모델별 성능 비교
여러 오픈/프라이빗 LLM(예: GPT-5, Claude-4 Sonnet, Gemini 2.5 Pro 등)이 동일 환경/시나리오에서 비교 평가되었습니다.
실제 결과:
- 지시 수행, 정보 검색은 이미 강한 모델이 많음.
- 적응력, 애매함 처리, 다중 에이전트 협력, 실시간성은 GPT-5, Claude 등 최상위 모델도 낮은 성적에 머묾.
- 속도·비용·성공률 간 트레이드오프가 명확히 드러남. 예를 들어, 가장 깊은 추론을 하는 모델은 해결능력은 뛰어나지만 느리고 비싼 경우가 많음.

"지능이 높은 에이전트는 대개 더 많은 계산자원을 쓰고 시간이 오래 걸린다. 하지만 실제 환경에선 빠르고 효율적으로 해결해야 쓸모가 있다."
5.2 협력 구조의 시사점🤝
Agent2Agent 실험에서는, 경량 모델에 하위에 강한 모델(서브에이전트)을 배치하면 전반적인 성능이 크게 개선될 수 있음을 보여줍니다.
"메인 에이전트가 계획-분해하고, 서브에이전트가 하위작업을 신속히 실행하는 이질적 협력구조가 효과적임이 밝혀졌다."

5.3 시간-속도-비용간 관계
모델들은 작업 정확도 외에도 반응속도와 비용 대비 효율에서 큰 차이를 보였습니다. 특히, 실시간성이 중요한 시나리오(Time)에서는 추론이 깊은 모델일수록 오히려 성능이 급격히 줄어드는 등 '역스케일링 법칙'이 관찰되었습니다.
"더 똑똑한 에이전트가 더 느리고, 그 결과 실시간 요구가 높을수록 오히려 실용성이 감소한다."

6. 주요 교훈과 향후 과제
6.1 지능의 실용화 조건: 효율성+적응성
ARE와 Gaia2 실험은 "지능=정확성"이라는 단순 공식이 더이상 통하지 않음을 보여줍니다. 실제로 실무용 AI 에이전트는 아래와 같은 3대 요소가 모두 필요합니다:
- 정확한 문제 해결력
- 신속한 반응과 자원 효율 활용
- 환경 변화 및 잡음 적응력
"진짜 유용한 에이전트는 쉬운 건 빠르고 싸게, 어려운 건 확실하게 풀 수 있어야 한다."
6.2 검증과 지속적 확장
- 일관된 벤치마크 및 환경 확장이 중요함
- 환경을 더 복잡하게, 검증을 더 엄격하게, 단순문제라 해도 현실적인 잡음과 시간을 가미해 실제성 강화 필요
6.3 ARE의 미래
- 코드 에이전트(Code Agents) 도입 등, 단순 툴 콜 beyond
- 그동안의 순차적(동기적) ReAct 한계를 넘어 완전 비동기적, 다중 감각·환경 연동형 에이전트 운영 체제의 필요성 강조
"환경과 에이전트가 독립적으로 비동기적으로 꾸준히 진화하는 진짜 시스템이 필요하다."
마치며
ARE와 Gaia2는 AI 에이전트의 진짜 실무 활용과 평가를 위한 중요한 도구와 기준을 제시합니다. 단지 모델의 크기나 정답률만으로 평가되는 시대는 끝났으며, 앞으로는 효율·적응성·협력을 아우르는 '실전형 지능'이 에이전트 경쟁력의 핵심이 될 것입니다. 이번 결과와 툴은 연구자·개발자 누구든 실세계 시나리오에서 자신만의 에이전트, 벤치마크, 평가 기준을 쉽게 만들 수 있도록 하여 AI 발전의 새 지평을 여는 계기가 될 것입니다.
"지속적인 발전을 위해선, 의미 있는 과업 정의와 고도화된 평가가 필수다. ARE와 Gaia2는 그 출발점이다."
참고:
코드 및 플롯폼: https://github.com/facebookresearch/meta-agents-research-environments
문의: rfroger@meta.com, gmialon@meta.com, tscialom@meta.com