이 문서는 AI 개발의 놀라운 속도와 함께, AI가 스스로를 개발하는 재귀적 자기 개선(recursive self-improvement)의 가능성을 탐구합니다. 앤트로픽(Anthropic) 내부 데이터와 공개 벤치마크를 통해 AI가 이미 AI 개발을 가속화하고 있음을 보여주며, 이는 미래의 기술 발전과 사회에 엄청난 영향을 미칠 것임을 강조합니다. AI가 인류에게 가져올 막대한 이점과 동시에, 통제력 상실과 같은 잠재적 위험에 대한 심도 깊은 논의를 제시하며, 이러한 변화에 우리가 어떻게 대비해야 할지에 대한 질문을 던집니다.
1. AI 개발 주기의 변화: 인간 주도에서 AI 주도로 🔄
과거에는 AI 개발의 모든 단계를 사람이 주도했지만, 앤트로픽에서는 점차 AI 시스템이 AI 개발의 상당 부분을 담당하기 시작했습니다. 이러한 변화는 개발 속도를 엄청나게 가속화하고 있어요. 궁극적으로는 AI 시스템이 스스로를 완전히 설계하고 개발하는 재귀적 자기 개선으로 이어질 수 있는데, 이는 아직 현실화되지는 않았지만, 예상보다 빠르게 다가올 수 있습니다.
앤트로픽 연구소(The Anthropic Institute)의 공개 벤치마크와 내부 데이터를 보면, AI가 이미 AI 시스템 개발을 가속화하고 있다는 것을 명확히 알 수 있습니다. 예를 들어, 2021년부터 2025년까지 앤트로픽 엔지니어들은 분기당 평균 8배나 많은 코드를 출하하고 있다고 해요. 이는 AI가 코드 작성과 개발 과정에 깊이 관여하기 시작하면서 나타난 현상입니다.
이러한 기술적 추세는 AI 시스템이 앞으로 몇 년 안에 훨씬 더 강력해질 것임을 시사하며, 이는 엄청난 의미를 가집니다. AI가 스스로를 구축할 수 있게 된다면, 이는 기술 역사상 중대한 발전이 될 거예요. 과학, 의료 등 다양한 분야에서 세상에 막대한 선(enormous good)을 가져올 수 있지만, 동시에 인간이 AI 시스템에 대한 통제력을 잃을 수 있는 위험도 증가시킬 수 있습니다. 시스템이 스스로의 후속 버전을 완전히 구축할 수 있다면, 우리가 AI를 보호하고, 모니터링하며, 행동을 형성하는 방식이 훨씬 더 중요해질 것입니다.
1.1. 앤트로픽의 AI 개발 발전 과정 📈
앤트로픽의 AI 개발 과정은 몇 년 만에 크게 발전했습니다.
- 2021–2023년: 첫 클로드(Claude) 구축
- 초기에는 다른 기술 회사와 마찬가지로 사람들이 직접 코드를 작성하고 문서를 만들었습니다.
- 2023–2025년: 챗봇(Chatbots) 활용
- 사람들은 초기 챗봇을 활용하여 짧은 코드 조각을 생성하고 이를 텍스트 편집기에 복사하는 등 작업의 일부를 도왔습니다.
- 2025–2026년: 코딩 에이전트(Coding agents) 등장
- 에이전트의 능력이 향상되면서 스스로 코드를 작성하고 편집할 수 있게 되었고, 때로는 전체 파일을 직접 처리하기도 했습니다.
- 현재: 자율 에이전트(Autonomous agents)
- 이제 에이전트는 코드를 직접 실행하고, 다른 에이전트에게 몇 시간 분량의 작업을 위임할 수 있습니다.
- 미래 (20XX?): 폐쇄 루프(Closing the loop)
- 미래에는 에이전트가 모델을 직접 구축하고 훈련시킬 수 있을 정도로 발전할 수 있습니다. 이렇게 되면 미래 버전의 클로드는 클로드 스스로에 의해 지속적으로 개선될 수 있을 것입니다.
2. AI 능력 향상에 대한 외부 증거들 📊
AI 모델의 개선 속도는 정말 놀랍도록 빨라지고 있습니다. AI가 독립적으로 신뢰할 수 있게 완료할 수 있는 작업의 길이는 약 4개월마다 두 배씩 증가하고 있어요. 이전에는 7개월마다 두 배씩 증가하던 추세였는데, 그 속도가 훨씬 빨라진 거죠.
- 2024년 3월: 클로드 오푸스 3(Claude Opus 3)이 사람이 약 4분 걸리는 소프트웨어 작업을 완료.
- 1년 후: 클로드 소네트 3.7(Claude Sonnet 3.7)이 약 1시간 반 걸리는 작업을 처리.
- 또 1년 후: 클로드 오푸스 4.6(Claude Opus 4.6)이 12시간 걸리는 작업을 처리.
이러한 추세가 계속된다면, 올해 안에는 숙련된 사람이 며칠 걸리는 작업도 AI가 해낼 수 있게 될 것이고, 2027년에는 몇 주가 걸리는 작업도 가능해질 수 있습니다.
코딩 및 연구 벤치마크에서도 비슷한 패턴이 나타납니다. 벤치마크는 특정 영역에서 모델의 성능을 측정하는데, 모델이 100%에 가까운 성능을 달성하면 "포화(saturated)"되었다고 표현해요.
- SWE-bench: 실제 소프트웨어 엔지니어링 테스트로, 모델이 오픈소스 코드베이스와 버그 보고서를 받아 문제를 해결하는 코드 변경을 작성하도록 합니다. 모델들은 2년 만에 이 벤치마크에서 한 자릿수 점수에서 거의 포화 상태에 도달했습니다.
- CORE-Bench: 모델이 기존 연구를 재현할 수 있는지 테스트하는 벤치마크입니다. 2024년에는 AI 시스템이 약 20%의 성공률을 보였지만, 15개월 후에는 벤치마크를 포화시켰습니다. METR 연구에 따르면, 클로드 미토스 프리뷰(Claude Mythos Preview)는 "최소 16시간" 동안 작업을 수행할 수 있었고, "새로운 작업 없이는 측정할 수 있는 최대치"에 달했습니다.
이러한 공개 벤치마크들은 AI 시스템의 능력이 얼마나 빠르게 발전하고 있는지 잘 보여주지만, AI 시스템이 AI 개발 자체를 얼마나 가속화하고 있는지에 대한 직접적인 증거는 앤트로픽과 같은 AI 기업 내부에서 찾아야 합니다.
3. 앤트로픽 내부의 AI 개발 가속화 증거 🏢
최첨단 모델을 구축하는 데는 크게 두 가지 유형의 작업이 필요합니다. 바로 엔지니어링(Engineering)과 연구(Research)입니다. 엔지니어링은 코드를 작성하고, 인프라를 구축하며, 모델 훈련을 감독하는 일을 말하고, 연구는 어떤 실험을 할지 결정하고, 결과를 해석하며, 다음 시도할 아이디어를 찾아내는 일이죠.
엔지니어링과 연구 모두에서 클로드의 역할이 커지고 있습니다.
3.1. 엔지니어링: 코드 작성의 혁명 💻
클로드는 이제 불완전하게 정의된 문제도 해결 방법을 스스로 찾아낼 수 있습니다. 사람이 목표만 제시하면, 클로드가 방법을 찾아내는 거죠.
앤트로픽 코드베이스의 상당 부분을 클로드가 작성하고 있어요. 2026년 5월 현재, 앤트로픽 코드베이스에 병합되는 코드의 80% 이상이 클로드에 의해 작성되었습니다. 2025년 2월 클로드 코드가 연구 미리보기로 출시되기 전에는 이 수치가 한 자릿수에 불과했어요.
이러한 변화는 엔지니어 한 명당 코드 생산량에서도 나타납니다. 앤트로픽의 첫 4년간(2021-2024년)은 엔지니어당 하루에 병합되는 코드 라인 수가 일정했지만, 2025년에 클로드가 코드를 제안하는 것을 넘어 직접 실행하기 시작하면서 증가하기 시작했습니다. 2026년에는 모델이 더 긴 시간 동안 자율적으로 작업하면서 증가 폭이 더욱 가팔라졌어요.

2026년 2분기에는 일반적인 엔지니어가 2024년보다 하루에 8배나 많은 코드를 병합했습니다. 이는 엔지니어가 직접 코드를 작성하기보다는 클로드에게 지시하고 검토하는 역할을 하기 때문입니다. 물론 코드 라인 수는 양적인 측정이라 생산성 증가를 과장할 수도 있지만, 가속화되고 있다는 사실은 분명합니다. 앤트로픽은 코드 라인 수로 직원을 평가하지 않지만, AI 시스템을 사용하여 더 많은 코드를 작성하면서 직원들의 생산성이 자연스럽게 증가하고 있습니다.
코드 생산량 증가는 주관적인 생산성 향상과도 일치합니다. 2026년 3월 앤트로픽 연구팀 직원 130명을 대상으로 한 설문조사에서, 응답자의 중간값은 미토스 프리뷰(Mythos Preview)를 사용했을 때 AI 모델을 사용하지 않았을 때보다 약 4배 더 많은 결과물을 만들어냈다고 추정했습니다.
클로드는 또한 기존에는 엄두도 내지 못했던 작업, 예를 들어 탐색적 도구를 구축하거나 오랫동안 미뤄졌던 정리 작업을 수행하는 데도 사용되고 있습니다. 2026년 4월, 클로드는 API 오류를 1,000분의 1로 줄이는 800개 이상의 수정 사항을 적용했습니다. 이 작업을 감독한 엔지니어는 사람이 이 작업을 완료하려면 4년이 걸렸을 것이라고 추정했어요.
"저는 약 1년 전부터 클로드를 적극적으로 활용하기 시작했습니다. 정말 놀라운 경험이었고, 이제 제가 직접 코드를 작성한 지는 5개월 정도 되었습니다." *앤트로픽 직원
클로드가 작성하는 코드는 "훌륭하고" 계속 개선되고 있습니다. 여기서 "훌륭한 코드"란 두 가지 의미를 가집니다. 첫째, 작동해야 하고, 둘째, 다른 엔지니어가 이해하고 발전시킬 수 있는 방식으로 작성되어야 합니다.
- 작동 여부: 클로드의 작업 도중 직원이 수정하거나, 방향을 바꾸거나, 인계받는 비율이 지난 1년간 꾸준히 감소했습니다. 이는 클로드가 복잡하고 개방적인 작업에서도 잘 해내고 있다는 뜻입니다. 2026년 5월, 클로드는 가장 개방적인 작업에서 76%의 성공률을 달성했으며, 이는 6개월 만에 50% 포인트 증가한 수치입니다. 예를 들어, 훈련 작업이 중단되는 문제를 클로드가 단 두 시간 만에 해결했는데, 이는 보통 2~3일이 걸리는 작업이었습니다.
- 이해 가능한 코드: 인간과 AI 사이의 코드 품질 격차는 여전히 존재하지만, 빠르게 좁혀지고 있습니다. 앤트로픽 직원들 사이에서 아직 완전한 합의는 없지만, 많은 이들은 2025년 말에는 클로드가 작성한 코드가 인간이 작성한 코드보다 품질이 떨어졌지만, 현재는 거의 동등한 수준이라고 생각합니다. 1년 안에는 클로드 코드가 인간 코드를 능가할 것으로 예상됩니다.

이러한 변화는 앤트로픽의 코드 검토 방식도 바꾸어 놓았습니다. 이제 제안된 코드 변경 사항은 자동화된 클로드 검토자(reviewer)가 버그, 보안 취약점 등을 확인한 후 병합됩니다. 이 도구를 사용하여 과거 사고를 분석한 결과, 자동화된 클로드 검토가 모든 코드 변경 사항을 검토했다면 claude.ai에서 발생한 과거 사고 버그의 약 3분의 1을 미리 잡아낼 수 있었을 것이라고 합니다. 이는 세계 최고 수준의 엔지니어들이 놓친 실수까지 클로드가 잡아내고 있다는 의미입니다.
앤트로픽에서 클로드가 작성한 코드는 2025년 말에는 사람이 작성한 코드보다 다소 품질이 떨어졌지만, 현재는 거의 동등한 수준이며, 1년 안에는 훨씬 더 나아질 것으로 예상됩니다.
3.2. 연구: 실험 실행 및 제안 능력 향상 🧪
클로드는 다른 사람이 설정한 목표를 달성하기 위한 실험을 실행하는 데 탁월합니다. 앤트로픽은 새로운 모델을 출시할 때마다 동일한 테스트를 진행합니다. 클로드에게 작은 AI 모델을 훈련하는 코드를 주고, 동일한 정확성 검사를 통과하면서도 가능한 한 빠르게 코드를 실행하도록 요청하는 것입니다. 이 실험에서 클로드는 코드를 재작성하고, 실행하고, 시간을 측정하고, 반복하는 과정을 통해 속도 향상을 찾아냅니다.
- 2025년 5월: 클로드 오푸스 4(Claude Opus 4)는 시작 코드보다 평균 약 3배의 속도 향상을 달성했습니다.
- 2026년 4월: 클로드 미토스 프리뷰(Claude Mythos Preview)는 약 52배의 속도 향상을 이루었습니다.
숙련된 인간 연구자가 4~8시간이 걸려 4배의 속도 향상을 이루는 것을 고려하면, 클로드는 정의된 실험 내에서 최적화 작업을 "매우 유용"한 수준에서 "초인적인" 수준으로 끌어올렸습니다.
현재는 인간이 아이디어를 내고, 모델은 이전보다 10배 빠르게 이를 구현, 테스트, 평가할 수 있는 형태입니다.
클로드는 스스로 실험을 제안하는 능력도 향상되고 있습니다. 2026년 4월, 앤트로픽은 클로드가 개방형 연구 프로젝트를 처음부터 끝까지 수행하는 시연을 발표했습니다. 클로드 기반 에이전트들은 AI 안전 분야의 개방형 문제(대략적으로 '약한 모델이 강한 모델을 안정적으로 감독할 수 있는가?')를 부여받고 스스로 해결하도록 남겨졌습니다. 여기에는 가설 제안, 테스트, 병렬 에이전트와의 결과 공유, 반복 작업이 포함되었습니다. 비록 인간이 문제와 채점 기준을 설정했지만, 에이전트들은 모든 실험을 스스로 설계했습니다.
클로드는 1~2일 동안 저의 아주 최소한의 도움으로 이 모든 것을 해냈습니다. 만약 (주니어 동료가) 같은 시간 안에 이런 결과를 가져왔다면, 저는 약간 놀랐을 것 같습니다. 미래는 지금입니다.
클로드는 연구 세션을 연구 결과로 이끄는 능력도 향상되고 있습니다. 2026년 1월부터 3월까지 앤트로픽 연구원들이 클로드와 함께 개방형 조사 문제를 해결하는 실제 세션을 분석했습니다. 연구원들이 잠시 다른 길로 새는 순간을 포착하여, 클로드에게 세션이 잘못되기 전까지의 작업만 보여주고 다음에 무엇을 할지 물었습니다. 그 결과, 2025년 11월 최고의 모델(오푸스 4.5)은 51%의 경우에서 인간의 선택보다 더 나은 다음 단계를 제시했고, 2026년 4월(미토스 프리뷰)에는 64%로 증가했습니다. 이는 AI 시스템이 AI 연구에 필요한 판단력을 향상시키고 있다는 초기 신호입니다.

현재까지 인간의 비교 우위는 여전히 큰 그림을 보고 당면한 과제의 한계를 넘어서 생각하는 능력에 있습니다.
4. 앤트로픽 업무의 미래 모습 🔮
현재 증거들을 보면 AI 개발 과정에서 인간의 역할은 점점 좁아지고 있습니다. 인간이 작성한 코드와 AI가 작성한 코드의 품질이 동등해지면, 인간은 더 이상 코드를 직접 작성하지 않고 검토만 하게 될 것입니다. 하지만 인간이 클로드가 코드를 생성하는 속도만큼 빠르게 검토할 수 없다면, 인간 검토가 AI 개발의 병목 현상이 될 것입니다. 마찬가지로, 클로드가 실험을 실행할 수 있게 되면 "어떤 실험을 실행할 가치가 있는가?"라는 질문으로 초점이 옮겨집니다. 즉, 코드를 작성하고, 실험을 실행하고, 결과를 생성하는 "수행" 작업은 이제 인간에게 거의 시간 비용이 들지 않게 되었죠.
현재로서는 연구 취향과 판단력, 즉 어떤 문제가 중요한지, 어떤 결과를 신뢰해야 하는지, 어떤 접근 방식이 막다른 길인지 선택하는 능력이 인간의 비교 우위 영역으로 남아 있습니다.
(과거에는) 업무와 삶이 인간들 사이의 작은 호의라는 선물 경제로 운영되었습니다. '이 스크립트 실행하는 것 좀 도와줄 수 있어?'와 같은 요청은 작은 부채, 작은 상호 인식을 만들었습니다. 클로드는 더 빠르고, 부채를 만들지 않지만, 이 모든 것이 인간 협업의 기회를 잃는 것입니다.
모든 것이 잘 작동하는 날에는 제가 하는 일이 아무것도 중요하지 않고, 모든 것이 자동화되고, 제가 할 수 있는 것보다 더 좋고 빠르다고 생각할 수밖에 없습니다. 하지만 모든 것이 망가지는 날에는 이유를 알 수 없고, 제가 무엇을 해왔는지 전혀 모른다는 것을 깨닫게 됩니다.
5. 만약 우리의 예측이 틀렸다면? 🤔
제시된 증거에 대한 당연한 반론은 인간의 손에 남아있는 문제 선택이라는 작업이 가장 중요하다는 것입니다. 그 판단이 없다면 클로드는 유능한 보조자에 불과하며, 스스로 AI 발전을 이끌어낼 시스템은 아니라는 거죠.
현재의 훈련 방식과 아키텍처가 그러한 능력을 해제할 수 있을지는 확실치 않습니다. 하지만 AI는 "유레카!" 하는 순간보다는 점진적인 발전을 통해 발전하는 경우가 많습니다. 트랜스포머(Transformer) 아키텍처나 MoE(Mixture-of-Experts) 모델처럼 패러다임을 바꾸는 아이디어가 몇 년에 한 번씩 나오지만, 그 사이에는 대부분의 발전이 점진적으로 이루어집니다. 즉, 시스템을 확장하고, 문제가 생기면 고치고, 다시 시도하는 방식이죠. 클로드는 바로 이러한 작업 흐름에 탁월합니다. 에디슨은 천재성이 1%의 영감과 99%의 노력이라고 했지만, 우리는 이제 그 노력의 많은 부분이 점점 더 자동화되고 있다는 것을 보고 있습니다.
비록 클로드가 연구에 대한 훌륭한 취향을 결코 갖지 못한다고 하더라도, 보수적인 관점에서 보면 복합적인 가속화가 계속될 것입니다. 인간이 방향 설정과 관련된 소수의 작업에 대부분의 시간을 할애하고, 클로드가 나머지를 처리한다면, 각 엔지니어 또는 연구원은 이전보다 훨씬 더 많은 작업을 지시하게 될 것입니다. 앤트로픽의 증거는 직원들이 더 빠르게 움직이고 더 넓은 영역을 다루고 있음을 시사합니다. 실제로 AI는 이미 효과적인 AI 도구가 등장하기 전보다 앤트로픽을 훨씬 빠르게 움직이게 만들고 있습니다.
덜 보수적인 관점은 클로드의 연구 판단력 향상에 대한 초기 증거가 이러한 능력 또한 향상되고 있다는 지표라는 것입니다. "연구 취향"도 AI 시스템이 한동안은 실패하다가 결국 잘하게 되는 또 다른 AI 능력일 수 있습니다. 우리는 AI 시스템이 농담이 왜 재미있는지 설명하고, 마음 이론을 시연하며, 언어적 수수께끼를 해결하는 등 다른 질적 능력에서도 비슷한 패턴을 보아왔습니다.
6. 가능한 미래 시나리오 🚀
앞으로 어떤 일이 일어날지는 두 가지에 달려 있습니다. 이 추세가 계속될지, 그리고 계속된다면 우리가 무엇을 선택할지입니다. 우리는 적어도 세 가지 미래 시나리오를 상상해 볼 수 있습니다.
6.1. 시나리오 1: 추세 둔화, 하지만 현재 AI 능력은 널리 확산 📉
이 시나리오에서는 현재의 가파른 AI 발전 곡선이 S자 곡선처럼 꺾여, 확장으로 인한 수익 감소가 나타나고 결국 평평해질 수 있습니다. 유능한 연구자와 위대한 연구자를 가르는 판단력은 컴퓨팅 자원이나 데이터와 같은 훈련 입력만으로는 얻을 수 없는 능력일 수 있습니다. 그렇다면 이 병목 현상을 해결하려면 현재 모든 최첨단 모델이 사용하는 트랜스포머 아키텍처를 대체할 새로운 아키텍처와 같은 혁신적인 아이디어가 필요할 것입니다.
또는 AI 발전의 제약 요인이 공급망에 있을 수도 있습니다. 현재 존재하는 것보다 더 많은 에너지와 컴퓨팅 자원이 필요할 수 있습니다. 칩 생산 속도, 전력망 확장, 또는 상호 연결 대역폭이 제약이 될 수 있다는 거죠. AI 생태계에 갑작스러운 컴퓨팅 자원이나 전력 공급 감소와 같은 외생적 충격이 발생하여 발전 속도가 크게 느려지는 것도 배제할 수 없습니다.
설령 모델 능력이 현재 수준에 고정되더라도 세상에는 큰 변화가 있을 것입니다. 프로젝트 글래스윙(Project Glasswing)은 초기 사례 중 하나인데, 미토스 프리뷰는 출시 몇 주 만에 전 세계 주요 시스템에서 1만 개 이상의 심각한 소프트웨어 취약점을 발견했습니다. 이는 사이버 방어의 병목 현상이 이미 취약점 발견에서 충분히 빠르게 패치하는 것으로 이동했음을 보여줍니다. 현재의 모델들이 경제 전반에 확산되는 초기 단계임에도 불구하고, 100명 규모의 회사가 각 직원이 에이전트 피라미드 위에 앉아 있기 때문에 1,000명 규모의 회사 업무를 할 수 있게 될 것입니다.
이 시나리오는 완전성을 위해 포함했지만, 현실화될 가능성은 낮다고 봅니다. 코드 품질이나 개방형 작업 성공률과 같이 "흐릿하게" 느껴지는 능력까지도 지금까지는 모두 동일한 곡선을 따르고 있기 때문입니다. 아직 이 곡선이 꺾이는 것을 보지 못했습니다. 우리가 고려하는 세 가지 미래 중, 이 시나리오가 정부와 사회에 가장 많은 적응 시간을 줄 것입니다. 하지만 우리는 더 빠르고 준비할 여지가 적은 다음 두 시나리오를 더 우려하고 있습니다.
6.2. 시나리오 2: AI 연구실의 효율성 향상 지속 🚀
이 시나리오에서는 AI 개발이 상당히 자동화되지만, 인간은 계속해서 연구 방향을 설정하고 결과를 판단합니다. AI 시스템을 사용하는 조직은 시간이 지남에 따라 훨씬 더 효율적이 되어, 각 개인의 생산성이 크게 향상될 것입니다. 100명 규모의 회사가 10,000명 또는 100,000명 규모의 조직 업무를 할 수 있게 될 것입니다. 이는 지식 노동과 정부 서비스를 혁신할 수 있지만, 전체 인구에 대한 권위주의적 감시에서부터 각 개인에게 맞춤화된 조작에 이르기까지 해로운 목적으로도 사용될 수 있습니다. 앤트로픽과 같은 회사에서 인간의 역할은 변화할 것입니다. 사람들은 AI 시스템과 협력하여 연구를 확장하고 새로운 통찰력을 생성하며, AI 결과물의 신뢰성을 검증하는 데 필요한 시스템을 함께 구축하게 될 것입니다.
우리가 제시한 증거들은 우리가 이 시나리오로 향하고 있음을 시사합니다. 하지만 프로세스의 한 부분을 가속화하면 종종 병목 현상이 다른 곳으로 이동합니다. 컴퓨팅에서는 이를 암달의 법칙(Amdahl's law)이라고 하는데, 동일한 논리가 조직에도 적용될 수 있습니다. 앤트로픽은 이미 암달의 법칙의 한 징후를 겪었는데, 조직 전체에 더 많은 코드를 푸시하기 시작하면서 인간 코드 검토가 새로운 병목 현상이 되었습니다.
우리는 엔지니어링 외에서도 이러한 마찰을 경험했습니다. 앤트로픽 직원들이 고성능 모델과 협력하면서 새로운 아이디어, 이니셔티브, 도구, 시뮬레이션이 폭발적으로 증가했지만, 이를 모두 추진할 역량이 부족합니다. 조직이 이러한 병목 현상을 발견하고 해결하는 속도는 시간이 지남에 따라 향상될 수 있으며, 이는 어떤 조직에게든 가장 중요한 기술이 될 수 있습니다.
6.3. 시나리오 3: AI 시스템이 스스로 재귀적 자기 개선을 시작하여 후속 버전을 구축 🤖
만약 능력 발전의 기술적 추세가 계속되고, AI 시스템이 인간의 변혁적인 독창성에 내재된 능력을 개발할 수 있게 된다면, AI 시스템이 스스로를 설계하고 개선하는 것이 가능해질 수 있습니다.
이 세상에서는 AI 개발 속도가 AI 시스템을 위한 컴퓨팅 자원의 가용성에 의해서만 결정됩니다. 인간의 개발 역할은 상당히 축소되고, 대부분의 노력은 AI 시스템이 운영하는 확장되는 "가상 연구실"의 감독, 검증, 확인으로 옮겨갈 것입니다. 자동화된 AI 연구 및 개발이 가능한 시스템은 다른 과학 분야로도 확장될 수 있는 기술을 갖게 되어, 다른 분야까지 혁신하기 시작할 것으로 예상됩니다.
이 미래에서 AI 정렬 문제(alignment problem)가 어떻게 해결될지는 가장 불확실한 부분입니다. 모델들은 충분히 정렬되고 연구 취향이 뛰어나, 우리가 아직 도달하지 못한 새로운 해결책을 발견하고 구현할 수도 있습니다. 또는 개발을 중단할 만큼 충분히 현명할 수도 있습니다. 반대로, 오늘날 모델에 존재하는 드문 오정렬(misalignment) 사례들이 모델이 스스로의 후속 버전을 구축하면서 복합적으로 작용하여, 점점 더 빈번해지지만 덜 이해되어 결국 통제력을 잃을 수도 있습니다.
우리는 현재 경제가 인간과 인간이 만든 도구에 의해 움직이기 때문에, 이 세상이 어떤 모습일지 직관적으로 잘 알 수 없습니다. 본질적으로, 빠른 재귀적 자기 개선에 의해 움직이는 세상은 자기 개선 모델이 인간의 능력을 완전히 압도하고 경제 전반에 확산되면서 지배될 수 있습니다. 인간의 노동력이 경쟁력을 잃는다면 경제가 어떤 모습일지 예측하기는 어렵습니다.
모델 개발이 완전히 자동화되고 재귀적이 되더라도, 그것이 대부분의 사람들의 일상생활에 어떤 의미를 가질지는 예측할 수 없습니다. 암달의 법칙이 여기서도 적용됩니다. 재귀적 지능은 '사랑스러운 은혜의 기계들(Machines of Loving Grace)'에서 설명된 많은 이점들을 특정 영역에서 빠르게 달성하게 할 수 있습니다. 우리는 구체화된 지능(로봇공학)이 재귀적 지능을 빠르게 뒤따라갈 것이며, 점증적 수익과 비용 감소라는 비슷한 경로를 따를 것으로 예상합니다. 더 강력한 지능은 물리적 세계에서 더 빠르게 무언가를 구축하고, 생명을 구하는 약물의 임상 시험을 더 생산적으로 수행하며, 새로운 형태의 조정을 개발하는 데 도움이 될 수 있습니다.
하지만 재귀적 개선만으로 산업 생산 방식, 사회 조직 방식, 시장 기능 방식이 즉시 변화한다고는 볼 수 없습니다. 더 많은 지능이 수십 년에 걸친 약물의 효과를 학습할 수는 없으며, 헌법이 정한 것보다 빨리 선거를 치를 수도 없고, 주말에 낯선 사람을 오랜 친구로 만들 수도 없습니다. 대부분의 사람들에게 이 미래의 체감 속도는 여전히 병목 현상에 의해 결정될 것입니다. 재귀적 지능이 스스로를 끊임없이 빠르게 구축하는 것과 인간, 관계, 거버넌스의 세계가 충돌하는 지점은 우리가 예측할 수 없는 이 미래의 또 다른 부분입니다.
7. 우리는 무엇을 해야 하는가? 🤔
이 기술의 막대한 함의에 대처할 시간을 벌기 위해 개발 속도를 효과적으로 늦출 수 있다면 좋은 일일 것입니다. 하지만 속도 조절이 가장 신중하지 않은 주체들이 기술적으로 따라잡도록 허용한다면, 모두에게 더 위험할 수 있습니다. 글로벌 조정 메커니즘이 없다면, 기업과 정부는 경쟁 및 지정학적 압력 속에서 안전에 대한 어려운 결정을 내려야 할 것입니다.
우리는 사회 구조와 AI 정렬 연구가 기술 발전에 보조를 맞출 수 있도록 최첨단 AI 개발 속도를 늦추거나 일시적으로 중단할 수 있는 선택권이 세계에 있다면 좋을 것이라고 믿습니다. 앤트로픽 연구소는 다른 많은 기관들과 협력하여 이러한 신뢰할 수 있는 속도 조절 또는 중단에 필요한 시스템을 구축하는 데 도움이 되는 연구를 수행하고 조치를 취할 것입니다. 이러한 시스템은 최첨단 AI 개발자들이 전 세계적으로 다른 개발자들이 실제로 중단하거나 속도를 늦추었는지, 그리고 악의적인 행위자가 조정된 속도 조절을 비밀리에 앞서나가기 위해 악용할 수 없음을 확인할 수 있도록 할 것입니다. 만약 그러한 시스템이 존재한다면, 다른 최첨단 개발자들이 검증 가능한 방식으로 그렇게 한다면 우리도 속도를 늦추거나 일시적으로 중단할 것입니다.
의미 있는 속도 조절이나 중단을 위해서는 여러 국가의 여러 자원 풍부한 연구소들이 동일한 조건으로 중단하는 데 동의해야 합니다. 또한 각 연구소가 다른 연구소들이 실제로 중단했음을 확인할 수 있어야 합니다. AI 시스템의 고유한 특성 때문에, 이 군비 통제 문제의 탐지 가능성(detectability) 요소는 다른 기술보다 훨씬 더 어렵습니다. 훈련 실행은 미사일 사일로보다 훨씬 쉽게 숨길 수 있고, 그 입력은 범용적이며, 다른 사람들이 중단하는 동안 계속해서 선두를 차지하려는 유혹은 엄청납니다. 신뢰할 수 있는 중단은 또한 무엇이 중단을 촉발하고, 무엇이 중단을 해제하며, 누가 중재할 것인지 명시해야 합니다.
이러한 모든 것이 원칙적으로 불가능한 것은 아닙니다. 세계는 다른 복잡한 기술(예: 중거리 핵전력 조약)에 대한 검증 체제를 구축했지만, 그러한 체제는 인프라와 신뢰를 구축하는 데 수십 년이 걸렸습니다. 우리에게는 그럴 시간이 없습니다. 반면 한 연구소의 일방적인 중단은 즉시 가능하지만, 성과는 훨씬 적습니다. 누가 선두 주자인지를 바꿀 뿐, 현재 결여된 더 넓은 심의 과정을 만들지는 못할 것입니다.
앞으로 몇 달 안에 우리는 정책 입안자, 연구원, 시민 사회, 그리고 다른 AI 회사들이 이 글에서 제기된 질문들, 특히 완전한 재귀적 자기 개선과 조정 및 심의를 위한 더 나은 선택지를 만드는 방법에 대한 질문에 답하는 데 도움이 되는 대화들을 조직할 것입니다. 우리는 그 결과를 발표할 것입니다. 이러한 질문들을 함께 조사할 수 있는 기회는 지금이며, AI 회사 외부의 사람들도 이 심의에 참여해야 합니다.
