이 연구는 대규모 언어 모델(LLM)이 문서 편집과 같은 위임된 작업을 수행할 때 문서 내용을 얼마나 잘 보존하는지 평가합니다. DELEGATE-52라는 새로운 벤치마크를 사용하여 52개 전문 분야에 걸쳐 19개 LLM을 테스트한 결과, 현재 모델들이 장기적인 작업 흐름에서 문서 내용을 심각하게 손상시킨다는 사실을 발견했습니다. 특히, 최신 모델들도 20번의 상호작용 후 평균 25%의 문서 내용이 손상되었으며, 문서 크기, 상호작용 길이, 방해 요소의 존재가 손상 심각도를 악화시켰습니다. 이러한 결과는 LLM이 지식 노동에서 신뢰할 수 있는 대리인이 되기 위해 아직 해결해야 할 신뢰성 격차가 있음을 시사합니다.
1. LLM 위임 작업의 신뢰성 문제 제기
최근 대규모 언어 모델(LLM)의 발전은 위임된 작업과 같은 새로운 상호작용 패러다임을 가능하게 했습니다. 이는 지식 근로자가 LLM에 작업을 위임하고 감독하는 방식이죠. 하지만 사용자들이 LLM이 수행한 변경 사항을 항상 검토할 전문성이나 시간이 없기 때문에, LLM이 오류 없이 작업을 정확하게 실행할 것이라는 신뢰가 중요해졌습니다.
이 연구는 LLM이 문서 조작 시 오류를 발생시키지 않고 작업을 수행할 수 있는지에 대한 준비 상태를 시뮬레이션을 통해 광범위하게 조사했습니다. 이 연구의 주요 목표는 LLM이 위임된 지식 작업을 수행할 때 문서의 무결성을 얼마나 잘 유지하는지 알아보는 것이었어요.
2. DELEGATE-52 벤치마크 소개 🚀
이 연구의 핵심은 DELEGATE-52라는 새로운 벤치마크를 개발했다는 점입니다. 이 벤치마크는 코딩, 결정학, 족보, 악보 표기법 등 52개의 전문 분야에 걸쳐 310개의 작업 환경을 제공합니다. 각 환경은 실제 문서를 포함하며, 길이는 약 15,000토큰이고, LLM이 수행해야 할 5~10가지 복잡한 편집 작업으로 구성되어 있습니다.
기존 연구들이 단일 분야(예: 코드 편집)에 집중했던 것과 달리, DELEGATE-52는 훨씬 더 광범위한 분야를 다루며 LLM의 일반적인 능력을 평가하려고 했어요.
2.1. 장기 작업 흐름 시뮬레이션 방법: 왕복 릴레이 🔁
DELEGATE-52는 왕복 릴레이 시뮬레이션이라는 독특한 방법을 사용하여 장기적인 위임 상호작용을 시뮬레이션하고 LLM 성능을 평가합니다. 이 방법은 주석이나 참조 솔루션 없이도 평가가 가능하다는 장점이 있어요.
- 가역 편집 태스크: 각 편집 작업은 순방향 지시와 그에 대한 역방향 지시로 정의되어 가역적으로 설계되었습니다.
- 왕복 과정: LLM은 먼저 원본 문서(s)에 순방향 지시를 적용하여 변환된 문서(t)를 만듭니다. 그 다음, 이 변환된 문서(t)에 역방향 지시를 적용하여 원본 문서와 유사한 재구성된 문서(ŝ)를 만듭니다. 이상적인 모델이라면 s와 ŝ가 정확히 일치해야겠죠!
- 유사도 측정: 재구성 품질을 측정하기 위해 도메인별 유사도 함수를 구현했습니다. 이 함수는 원본 문서와 재구성된 문서 간의 의미론적 유사도를 측정하며, 0과 1 사이의 점수를 반환합니다.
이러한 왕복 과정은 순차적으로 연결되어 릴레이를 형성할 수 있으며, 이를 통해 여러 단계에 걸친 장기적인 작업 흐름을 시뮬레이션할 수 있습니다. 예를 들어 20번의 상호작용은 10번의 왕복 편집에 해당합니다. 주요 평가 지표는 일정 상호작용(k) 후의 재구성 점수 (RS@k)입니다.
그림 2: 역번역 왕복 기본 원리
2.2. 벤치마크 구성 요소들 🛠️
DELEGATE-52는 다음과 같은 구성 요소들을 포함합니다.
- 52개 전문 분야: 과학 및 공학, 코드 및 설정, 창작 및 미디어, 구조화된 기록, 일상생활의 5가지 범주에 걸친 다양한 분야를 포괄합니다.
그림 3: DELEGATE-52 벤치마크에 포함된 52개 전문 분야 - 작업 환경: 각 도메인에는 6개의 작업 환경이 있으며, 각 환경은 시드 문서, 5~10개의 편집 작업, 그리고 방해 컨텍스트로 구성됩니다.
- 시드 문서: 실제 온라인에서 찾은 문서로, 2,000~5,000토큰 길이를 가집니다.
- 편집 작업: 순방향 및 역방향 지시 쌍으로 이루어져 있으며, 단순한 확장을 넘어선 심층적인 변환을 요구합니다.
- 방해 컨텍스트: 실제 작업 환경을 시뮬레이션하기 위해 작업과 관련 없는 문서(8,000~12,000토큰)를 포함합니다.
- 도메인별 평가: 일반적인 텍스트 유사도 측정 방법은 미묘한 의미 변화를 포착하기 어렵기 때문에, 각 도메인에 맞는 맞춤형 유사도 함수를 구현했습니다. 예를 들어 레시피 도메인에서는 재료, 단계, 팁의 중요도에 따라 가중치를 두어 점수를 매깁니다.
그림 5: DELEGATE-52의 도메인별 평가 방식 - 품질 보증: 평가의 유효성을 보장하기 위해 파싱 견고성, 평가 민감도, 편집 테스트, 방해 요소 간섭 등의 여러 단계에서 품질 보증을 수행했습니다.
3. 주요 실험 결과 📊
이 연구는 19개의 LLM을 대상으로 DELEGATE-52 벤치마크를 통해 대규모 시뮬레이션을 진행했습니다. 각 시뮬레이션은 10번의 왕복(총 20번의 상호작용)으로 구성되었으며, 모델은 각 상호작용에서 작업 환경 문서를 텍스트 형태로 컨텍스트 창에 받았습니다.
3.1. 문서 손상 현상 📉
모든 모델은 상호작용이 진행될수록 성능이 저하되었으며, 시뮬레이션이 끝날 무렵에는 평균 50%의 문서 내용이 손상되었습니다. 특히, 최신 모델인 Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4도 20번의 상호작용 후 평균 25%의 문서 내용이 손상되는 심각한 결과를 보였습니다.
"현재 LLM은 신뢰할 수 없는 대리인입니다. 희소하지만 심각한 오류를 조용히 문서에 주입하고, 이는 장기적인 상호작용에 걸쳐 누적됩니다."
도메인별로 보면, LLM은 Python, 데이터베이스와 같은 프로그래밍 도메인에서 더 나은 성능을 보였고, 자연어 및 틈새 도메인(예: 수익 보고서, 악보 표기법)에서는 더 나쁜 성능을 보였습니다. 52개 도메인 중 Python만이 대부분의 모델이 "준비된(ready)" 상태(20번 상호작용 후 98% 이상의 점수)에 도달한 유일한 도메인이었습니다.
이 결과는 LLM이 위임된 작업을 수행하는 데 있어 상당한 격차가 있음을 명확히 보여줍니다.
3.2. 단기 성능의 한계 ⚠️
놀랍게도, 짧은 상호작용(2회) 후의 성능은 장기적인 성능(20회)을 예측하는 데 항상 유용하지 않았습니다. 예를 들어, GPT 5와 Kimi K2.5는 초기에 거의 동일한 성능을 보였지만, 시간이 지남에 따라 성능 차이가 크게 벌어졌습니다. 이는 단기 시뮬레이션으로는 LLM의 장기적인 성능을 이해하기에 불충분하다는 점을 시사하며, 장기적인 평가의 중요성을 강조합니다.
3.3. 에이전트 도구 사용의 효과 🛠️
LLM이 도구를 사용하면 오류를 줄일 수 있을 것이라는 가설을 검증하기 위해, 파일 읽기/쓰기, 코드 실행 도구를 갖춘 기본적인 에이전트 시스템을 구현하여 테스트했습니다.
"테스트한 LLM은 다양한 텍스트 도메인에서 복잡한 편집 작업을 완료할 때 에이전트 도구 사용의 이점을 얻지 못합니다."
결과는 오히려 반대였습니다. 4개의 테스트 모델 모두 도구 없이 작동할 때보다 도구를 사용했을 때 평균 6% 더 많은 문서 손상이 발생했습니다. 이는 몇 가지 이유로 설명됩니다.
- 오버헤드: 도구 사용 시 모델은 더 많은 입력 토큰을 소비하고 비용이 증가하며 지연 시간이 길어집니다.
- 작업의 복잡성: DELEGATE-52의 작업은 단순히 짧은 프로그램 실행으로 해결될 수 있는 것이 아니라, 텍스트 이해와 문서에 대한 추론을 요구합니다. 따라서 LLM은 코드 실행보다 수동 파일 작성 도구를 선호하는 경향을 보였습니다.
결론적으로, 현재의 LLM은 복잡한 편집 작업에서 에이전트 도구를 효과적으로 활용하지 못하고 있으며, DELEGATE-52는 이러한 에이전트 시스템 개발자들에게 유용한 벤치마크가 될 수 있음을 시사합니다.
3.4. 문서 크기 및 상호작용 길이의 영향 📏
- 문서 크기: 문서 크기가 커질수록 GPT 5.4의 성능 저하는 점진적으로 악화되었습니다. 1,000토큰 문서에서 10,000토큰 문서로 크기를 늘렸을 때, 20번의 상호작용 후 손상도가 5배 증가했습니다. 이는 문서 크기와 상호작용 길이가 곱셈적으로 작용하여 손상이 눈덩이처럼 불어나는 것을 의미합니다.
- 상호작용 길이: 10라운드(20번 상호작용)를 넘어 50라운드(100번 상호작용)로 릴레이를 확장했을 때도 성능 저하는 계속되었습니다. 어떤 모델도 성능이 안정화되는 기미를 보이지 않았습니다. 초기 단계의 손상률이 후기 단계보다 높긴 했지만, 가장 강력한 모델인 GPT 5.4도 50라운드 후 60% 미만으로 점수가 떨어졌습니다.
3.5. 방해 요소의 영향 🚫
시뮬레이션에는 실제 작업 환경을 반영하기 위해 방해 문서가 포함되었습니다. 방해 문서를 제외하고 실험을 진행한 결과, 초기에는 큰 차이가 없었지만, 상호작용이 길어질수록 방해 요소의 부정적인 영향이 커졌습니다. 시뮬레이션이 끝날 무렵에는 방해 요소가 없는 경우가 2~8% 더 나은 성능을 보였습니다. 이는 불필요한 컨텍스트(방해 요소)가 LLM 성능 저하를 가속화하며, 단기적인 평가로는 그 심각성을 과소평가할 수 있음을 보여줍니다.
3.6. 비텍스트 문서 작업 능력 🖼️
이 연구는 텍스트 문서뿐만 아니라 이미지 편집과 같은 비텍스트 문서 작업에서도 LLM의 능력을 테스트했습니다. 9개의 이미지 생성 모델을 대상으로 6개의 시각적 작업 환경을 구성하여 실험했습니다.
- 심각한 손상: 이미지 조작에서의 손상도는 텍스트 도메인보다 훨씬 더 심각했습니다. 최고의 모델도 최종 재구성 점수가 28~30%에 불과했으며, 이는 텍스트 모델의 70~80%와 비교됩니다.
- 준비 부족: 2번의 상호작용 후에도 어떤 이미지 생성 모델도 65%를 넘지 못했는데, 이는 텍스트 모델이 20번의 상호작용 후에 보이는 성능보다도 낮습니다.
이는 이미지 편집 모델이 위임된 작업에 대해 아직 준비되지 않았음을 시사하며, DELEGATE-52 방법론이 비텍스트 분야에도 적용될 수 있음을 입증합니다.
4. 상세 분석 🔬
4.1. 심각한 오류 분석 💥
LLM의 성능 저하가 어떻게 발생하는지 알아보기 위해, 단일 왕복에서 10% 이상 점수가 하락하는 경우를 심각한 오류(Critical Failure)로 정의하고 분석했습니다.
- 누적된 심각한 오류: 모든 모델에서 심각한 오류가 전체 손상률의 80~98%를 차지했습니다. 즉, LLM은 수많은 작은 오류 때문에 점진적으로 성능이 저하되는 것이 아니라, 특정 라운드에서 급격하고 심각한 오류를 일으켜 문서 내용을 크게 손상시키는 경향이 있었습니다.
- 강력한 모델의 특징: 성능이 더 좋은 모델일수록 심각한 오류를 더 나중 라운드로 미루거나, 더 적은 상호작용에서 심각한 오류를 경험했습니다. 이는 작은 오류를 더 잘 피하는 것이 아니라, 심각한 오류 발생 시점을 늦추는 방식이라는 것을 보여줍니다.
4.2. 삭제 vs. 손상 🗑️↔️
문서 손상 원인을 내용 삭제와 기존 내용 손상(오염)으로 나누어 분석했습니다.
- 약한 모델: 성능이 낮은 모델일수록 내용 삭제로 인한 손상 비율이 높았습니다.
- 최신 모델: 반면, 최신 모델(Claude 4.6 Opus, Sonnet)의 손상 대부분은 기존 내용의 오염(수정, 환각, 왜곡)에 기인했습니다. 이는 최신 LLM이 위임된 작업에서 주로 사용자 문서를 오염시키는 방식으로 오류를 발생시킨다는 것을 의미합니다.
4.3. 문서 특성의 영향 📄
문서의 어떤 특성이 LLM 성능에 영향을 미치는지 분석했습니다.
- 반복성 및 구조 밀도: 모델은 반복성이 높고(d=+0.261), 수치 데이터가 많으며(d=+0.159), 구조 밀도가 높은(d=+0.119) 문서(예: 테이블 형식 데이터, 화학 기록)에서 성능 저하가 적었습니다.
- 자연어 및 어휘 다양성: 반대로, 자연스러움(d=-0.260)이 높고 어휘가 다양한 문서(예: 산문)에서는 성능 저하가 컸습니다.
이는 LLM이 형식적이고 기계 지향적인 형식(과학 및 공학, 코드 및 설정)에서 더 나은 성능을 보이고, 자연어 문서(일상생활, 창작 및 미디어)에서는 더 취약하다는 것을 시사합니다.
4.4. 의미론적 작업의 난이도 🧠
각 편집 작업에 필요한 의미론적 작업(Semantic Operation)을 분류하고, 각 작업이 LLM의 성능에 미치는 영향을 분석했습니다.
- 어려운 작업: 분할 및 병합(Split and Merge), 분류(Classification), 형식 지식(Format Knowledge)과 같이 문서의 전역적인 재구조화를 요구하는 작업은 점수가 현저히 낮았습니다. 이러한 작업은 전체 문서 구조에 대한 추론과 정보의 손실 또는 잘못된 라우팅 위험이 따릅니다.
- 쉬운 작업: 문자열 조작(String Manipulation), 참조(Referencing), 컨텍스트 확장(Context Expansion)과 같이 지역적인 작업은 점수가 높았습니다. 이는 모델이 개별 토큰이나 구절에 대해 전역적인 문서 이해 없이도 작업할 수 있기 때문입니다.
- 복합 작업의 어려움: 여러 의미론적 작업을 동시에 요구하는 복합적인 태스크일수록 성능이 더 낮아졌습니다. 이는 여러 작업을 조율하는 것이 LLM에게 더 어렵다는 것을 나타냅니다.
5. 시사점 및 한계 💡
5.1. LLM 개발자를 위한 시사점 💻
DELEGATE-52는 현재 LLM의 능력을 이해하기 위한 평가 도구로 사용되었지만, 모델 훈련에도 재활용될 수 있습니다. 특히, 52개 도메인은 LLM이 손실 없이 작업 주기를 완료하도록 훈련할 수 있는 온라인 강화 학습을 위한 "미니-짐(mini-gym)"으로 활용될 수 있습니다. LLM 개발자들은 지시 준수와 내용 보존을 동시에 목표로 하는 보상 설계를 통해 모델을 훈련시키는 방향을 모색할 수 있습니다.
5.2. 자연어 처리 실무자를 위한 시사점 🗣️
- 장기 상호작용 벤치마크의 필요성: 단기 성능이 장기적인 위임 작업의 예측 지표가 아니므로, 메모리 관리를 넘어선 장기 상호작용에 대한 벤치마크가 더 많이 필요합니다.
- 다양한 도메인에서의 평가: 수학이나 코드에 편중된 기존 평가에서 벗어나, 다양한 전문 분야와 도메인에 걸친 폭넓은 벤치마크가 필요합니다.
- 에이전트와 LLM 벤치마크의 통합: 에이전트 벤치마크와 LLM 벤치마크를 분리된 분야로 보기보다, LLM의 다양한 작동 방식을 이해하기 위한 통합적인 접근 방식이 중요합니다.
5.3. AI 시스템 사용자를 위한 시사점 🙋♀️
사용자들은 LLM에 작업을 위임할 때, 한 도메인에서의 능력을 다른 도메인으로 일반화하는 것에 주의해야 합니다. LLM의 능력은 "들쭉날쭉한 경계(jagged frontier)"를 따르기 때문에, 특정 작업에서는 놀라운 성능을 보이다가도 다른 작업에서는 심각한 오류를 범할 수 있습니다. 현재 LLM은 파이썬 코딩과 같은 일부 도메인에서는 위임된 작업에 준비되어 있지만, 다른 덜 일반적인 도메인에서는 그렇지 않습니다. 따라서 사용자는 LLM 시스템이 작업을 수행하는 동안 여전히 면밀히 모니터링해야 합니다.
5.4. 연구의 한계점 🚧
- 단일 턴 상호작용: 이 연구의 시뮬레이션은 단일 턴 상호작용에 기반하고 있으며, 실제 사용자들은 여러 턴에 걸쳐 지시를 다듬는다는 점을 고려하면, 실제 환경에서는 손상도가 더욱 증폭될 수 있습니다.
- 실용적 제약: 문서 크기, 방해 컨텍스트, 릴레이 길이 등의 시뮬레이션 매개변수는 비용과 컨텍스트 창 한계로 인해 실제 규모를 과소평가했을 수 있습니다. 실제 환경에서는 손상이 더욱 악화될 가능성이 있습니다.
- 개념적 제약: 역번역 및 도메인별 파싱에 의존하기 때문에, 작업이 문서 편집으로 제한되고 편집은 가역적이어야 하며, 구조화된 도메인에 평가가 유리하다는 한계가 있습니다.
6. 결론 🎯
이 연구는 LLM이 52개 전문 분야에 걸쳐 위임된 작업을 수행하는 대규모 시뮬레이션을 수행했습니다. 그 결과, 현재 LLM은 신뢰할 수 없는 대리인이며, 최신 모델들도 장기적인 작업 흐름에서 평균 25%의 문서 내용을 손상시킨다는 사실을 발견했습니다. 이러한 손상은 희소하지만 심각한 오류 형태로 조용히 누적되며, 문서 길이, 상호작용 길이, 방해 컨텍스트에 따라 더욱 악화되었습니다. 에이전트 도구 사용도 이러한 성능 저하를 완화하지 못했습니다.
이 결과는 LLM이 지식 노동에서 위임된 역할을 수행하는 데 있어 근본적인 신뢰성 격차가 있음을 명확히 보여줍니다. 연구팀은 DELEGATE-52를 공개하여 AI 시스템의 위임된 작업 준비 상태를 모니터링하고, 장기적인 인간-AI 상호작용 연구를 촉진하는 도구로 활용되기를 기대합니다.
