긴 컨텍스트의 함정: 에이전트가 실패하는 이유와 그 과정

1. 긴 컨텍스트 윈도우의 기대와 현실

최근 AI 모델의 컨텍스트 윈도우가 100만 토큰까지 확장되면서, 많은 사람들이 "이제 모든 정보를 한 번에 프롬프트에 넣고, 에이전트가 알아서 다 처리해줄 것"이라는 기대에 부풀었습니다.
예를 들어, 도구, 문서, 지침 등 필요한 모든 것을 한 번에 넣고, 모델이 알아서 최적의 답을 내줄 것이라는 환상이죠.

"이제는 모든 문서를 프롬프트에 넣을 수 있으니, 굳이 어떤 문서를 찾아야 할지 고민할 필요가 없다!"

이런 기대는 RAG(Retrieval-Augmented Generation)에 대한 열기를 식히고, MCP(Multi-Component Prompting)와 에이전트에 대한 기대를 키웠습니다.
하지만 실제로는, 긴 컨텍스트가 항상 더 나은 결과를 보장하지 않습니다. 오히려 컨텍스트가 너무 많아지면, 에이전트와 애플리케이션이 예상치 못한 방식으로 실패할 수 있습니다.
컨텍스트가 오염되거나, 산만해지거나, 혼란스럽거나, 충돌을 일으키는 문제가 발생할 수 있습니다.
특히, 에이전트는 정보를 모으고, 종합하고, 행동을 조율하는 데 컨텍스트에 크게 의존하기 때문에 이런 문제가 더 치명적입니다.

2. 컨텍스트 실패의 네 가지 유형

에이전트가 실패하는 대표적인 컨텍스트 문제는 다음과 같이 네 가지로 정리할 수 있습니다.

컨텍스트 오염(Context Poisoning)
- 잘못된 정보(환각 등)가 컨텍스트에 들어가 반복적으로 참조되는 현상
컨텍스트 산만(Context Distraction)
- 컨텍스트가 너무 길어져서, 모델이 학습된 내용보다 컨텍스트에만 집중하는 현상
컨텍스트 혼란(Context Confusion)
- 불필요한 정보가 컨텍스트에 들어가, 모델이 저품질의 답변을 생성하는 현상
컨텍스트 충돌(Context Clash)
- 컨텍스트 내에 서로 상충되는 정보나 도구가 들어가, 내부적으로 모순이 발생하는 현상

3. 각 실패 유형의 구체적 사례와 영향

1) 컨텍스트 오염

컨텍스트 오염은, 예를 들어 Gemini 2.5가 포켓몬 게임을 할 때 환각(hallucination)이 발생해 잘못된 정보가 컨텍스트에 들어가고, 그 정보가 계속해서 참조되는 상황에서 나타납니다.

"특히 심각한 형태의 이 문제는 '컨텍스트 오염'으로, 컨텍스트의 여러 부분(목표, 요약 등)이 게임 상태에 대한 잘못된 정보로 오염되어, 이를 되돌리기까지 매우 오랜 시간이 걸릴 수 있습니다. 그 결과, 모델은 불가능하거나 무관한 목표를 달성하려 집착하게 됩니다."

이처럼, 목표 섹션이 오염되면 에이전트는 말도 안 되는 전략을 세우고, 달성할 수 없는 목표를 계속 추구하게 됩니다.

2) 컨텍스트 산만

컨텍스트 산만은, 컨텍스트가 너무 길어져서 모델이 학습된 전략을 잊고, 과거의 행동만 반복하는 현상입니다.
예를 들어, Gemini 2.5 Pro는 100만 토큰 이상의 컨텍스트를 지원하지만, 실제로 10만 토큰을 넘어서면 과거 행동을 반복하는 경향이 나타났습니다.

"에이전트 환경에서 컨텍스트가 10만 토큰을 훨씬 넘어서면, 에이전트는 새로운 계획을 세우기보다는 방대한 과거 기록에서 행동을 반복하는 경향을 보였습니다. 이 현상은 장기 컨텍스트가 정보 검색에는 유용할 수 있지만, 다단계 추론에는 한계가 있음을 보여줍니다."

작은 모델일수록 이 한계는 더 빨리 나타납니다.
예를 들어, Llama 3.1 405b는 3만 2천 토큰 정도에서 정확도가 떨어지기 시작합니다.

이런 현상 때문에, 긴 컨텍스트 윈도우의 진짜 가치는 요약(summarization)이나 사실 검색(fact retrieval)에 있습니다.
그 외의 용도라면, 모델이 산만해지는 한계점(distracton ceiling)을 주의해야 합니다.

3) 컨텍스트 혼란

컨텍스트 혼란은, 너무 많은 도구나 정보가 한꺼번에 들어가 모델이 혼란스러운 답변을 내놓는 현상입니다.
예를 들어, MCP(Multi-Component Prompting) 방식으로 모든 도구 설명을 프롬프트에 넣으면, 오히려 모델이 어떤 도구를 써야 할지 혼란스러워집니다.

"버클리 Function-Calling Leaderboard는, 두 개 이상의 도구가 주어지면 모든 모델의 성능이 떨어진다는 사실을 보여줍니다. 심지어, 제공된 함수 중 어떤 것도 관련이 없는 상황에서도, 모든 모델이 가끔씩 무관한 도구를 호출합니다."

특히, 46개의 도구가 주어진 GeoEngine 벤치마크에서, Llama 3.1 8b 모델은 16k 컨텍스트 윈도우 내에서도 실패했습니다.
하지만 19개 도구만 주면 성공했습니다.

즉, 컨텍스트에 들어간 정보는 모델이 반드시 신경 써야 하므로, 불필요한 정보가 많아질수록 모델이 혼란에 빠질 수 있습니다.

4) 컨텍스트 충돌

컨텍스트 충돌은, 컨텍스트 내에 서로 상충되는 정보가 들어가 모델이 모순에 빠지는 현상입니다.
예를 들어, 마이크로소프트와 세일즈포스 연구팀은 여러 번에 걸쳐 정보를 추가하는 '샤딩(sharding)' 프롬프트 실험을 했습니다.

"LLM은 대화 초기에 가정(assumption)을 하고, 너무 일찍 최종 해답을 내놓으려 합니다. 그리고 그 잘못된 해답에 지나치게 의존합니다. 쉽게 말해, LLM이 대화에서 잘못된 길로 들어서면, 길을 잃고 다시 돌아오지 못합니다."

이처럼, 여러 번에 걸쳐 정보를 추가하면, 초기의 잘못된 답변이 컨텍스트에 남아 이후 답변에 계속 영향을 미칩니다.
실제로, OpenAI의 o3 모델은 점수가 98.1에서 64.1로 급락했습니다.

4. 긴 컨텍스트의 한계와 교훈

100만 토큰 컨텍스트 윈도우의 등장은 혁신적으로 보였지만, 실제로는 새로운 실패 유형을 만들어냈습니다.

컨텍스트 오염은 시간이 지날수록 오류가 누적됩니다.
컨텍스트 산만은 에이전트가 과거에만 집착하게 만듭니다.
컨텍스트 혼란은 무관한 도구나 문서를 사용하게 합니다.
컨텍스트 충돌은 내부 모순으로 추론이 무너집니다.

이런 실패는 특히 에이전트에서 더 심각하게 나타납니다.
에이전트는 여러 소스에서 정보를 모으고, 도구를 연속적으로 호출하며, 다단계 추론과 긴 대화 기록을 쌓기 때문입니다.

5. 앞으로의 해결책

다행히도, 이런 문제를 완화하거나 피할 수 있는 방법들이 있습니다.
예를 들어, 도구를 동적으로 불러오는 방법이나, 컨텍스트를 격리(quarantine)하는 방법 등이 있습니다.
이 내용은 다음 글에서 자세히 다룰 예정입니다.

더 자세한 해결책이 궁금하다면, "How to Fix Your Context"를 참고하세요!

핵심 키워드 요약

컨텍스트 윈도우
에이전트
컨텍스트 오염, 산만, 혼란, 충돌
RAG, MCP
요약(summarization), 사실 검색(fact retrieval)
도구 동적 로딩, 컨텍스트 격리

🧠 긴 컨텍스트가 만능은 아닙니다!
오히려, 정보를 어떻게 잘 관리하고, 필요한 것만 뽑아 쓰는지가 에이전트 성공의 핵심임을 꼭 기억하세요.