Scaling and the Path to Human-Level AI: Anthropic Co-Founder Jared Kaplan preview image

This video 앤트로픽의 공동 창업자 재러드 카플란이 AI 모델의 발전과 미래에 대해 강연한 내용. He AI 모델의 두 가지 핵심 훈련 단계인 사전 학습(Pre-training)과 reinforcement learning(Reinforcement Learning)에서 scaling 법칙이 어떻게 적용되는지 설명하며, 이를 통해 AI가 예측 가능한 방식으로 지속적으로 발전하고 있음을 강조. Also, 인간 수준 AI에 도달하기 위해 필요한 추가 요소들과 AI 시대에 우리가 어떻게 준비해야 할지에 대한 통찰을 공유.


1. 재러드 카플란의 AI 여정: 물리학에서 AI로

재러드 카플란은 약 6년간 AI 분야에서 일해왔으며, 그전에는 이론 물리학자로서 오랜 경력을 쌓았습니다. 물리학을 시작하게 된 계기는 공상 과학 작가였던 어머니의 영향으로, 초광속 드라이브를 만들 수 있을지 궁금했기 때문이라고 . He 우주의 작동 방식과 근본적인 질문들, 예를 들어 우주가 결정론적인지, 자유 의지가 있는지 등에 깊은 관심을 가졌습니다.

물리학자로서의 경력 동안 He 앤트로픽의 창업자들을 포함한 많은 흥미로운 사람들을 만났고, 그들이 하는 일에 관심을 가졌습니다. 대형 강입자 충돌기 물리학, 입자 물리학, 우주론, 끈 이론 등 다양한 물리학 분야를 거치면서 He 충분한 진전을 느끼지 못해 다소 좌절하고 지루함을 느꼈다고 .

처음에는 AI에 대해 회의적이었지만, 2005년에서 2009년 학창 시절에 SVM(서포트 벡터 머신) 외에는 아는 것이 없었기에 AI가 큰 발전이 없을 것이라고 생각. 하지만 친구들의 설득과 적절한 인연 덕분에 AI가 흥미로운 분야임을 확신하게 되었고, 이후 앤트로픽의 공동 창업자가 되었습니다.


2. 현대 AI 모델의 작동 방식과 scaling 법칙

카플란은 현대 AI 모델, 예를 들어 클로드(Claude)나 챗GPT(ChatGPT)와 같은 모델의 훈련에 두 가지 근본적인 단계가 있다고 설명.

2.1. 사전 학습 (Pre-training)

첫 번째 단계는 사전 학습(Pre-training). 이 단계에서는 AI 모델이 인간이 작성한 data, 즉 텍스트를 모방하고 그 data에 내재된 상관관계를 이해하도록 훈련. He 초기 GPT-3 모델의 예시를 들며, "저널 클럽에서 발표자로서, 여러분은 아마도 코끼리(elephant)가 특정 말을 하도록 할 것입니다"와 같은 문장에서 '코끼리'라는 단어가 나올 확률이 매우 낮다는 것을 모델이 학습한다고 설명.

"사전 학습이 하는 일은 모델에게 텍스트의 대규모 코퍼스에서 어떤 단어가 다른 단어 뒤에 올 가능성이 높은지 가르치는 것. 그리고 이제는 현대 모델에서 다중 모달 data도 포함."

2.2. reinforcement learning (Reinforcement Learning)

두 번째 단계는 reinforcement learning(Reinforcement Learning). 이는 클로드 초기 버전(클로드 제로 또는 클로드 마이너스 원)의 interface를 예시로 설명. 2022년 feedback data를 수집하던 시절, 사용자들이 클로드의 여러 응답 중 더 나은 것을 선택하면, 그 신호를 통해 모델이 유용하고, 정직하며, 무해한(helpful, honest, and harmless) 행동을 하도록 최적화되고 강화. 반대로 나쁜 행동은 억제.

"이 모델들을 훈련하는 데 필요한 것은 다음 단어를 예측하는 것을 배우고, 유용한 작업을 수행하는 것을 배우기 위해 reinforcement learning을 하는 것뿐."

2.3. scaling 법칙의 발견과 중요성

카플란은 이 두 훈련 단계 모두에 scaling 법칙(scaling laws)이 존재한다고 강조. He 5~6년 전 자신들이 만든 그래프를 보여주며, AI의 사전 학습 단계를 확장할수록 모델의 성능이 예측 가능하게 계속해서 향상된다는 것을 발견했다고 말. 이는 물리학자로서 "data는 얼마나 커야 하는가? 얼마나 중요한가? 얼마나 도움이 되는가?"와 같은 단순한 질문을 던진 결과였습니다.

"우리는 정말 운이 좋았습니다. AI 훈련의 기저에 매우, 매우, 매우 정확하고 놀라운 무언가가 있다는 것을 발견. 이것은 물리학이나 천문학에서 볼 수 있는 어떤 것만큼이나 정확한 멋진 경향이 있다는 사실에 우리는 정말 놀랐습니다."

이러한 scaling 법칙은 2019년 이미 컴퓨팅, data셋 크기, neural network 크기 등 여러 자릿수에 걸쳐 관찰되었으며, 이는 AI가 매우 예측 가능한 방식으로 계속해서 똑똑해질 것이라는 확신을 주었습니다. reinforcement learning 단계에서도 scaling 법칙이 나타나는데, 앤디 존스라는 연구자가 알파고(AlphaGo)의 scaling 법칙을 연구하며 더 간단한 게임인 헥스(Hex)를 통해 엘로(ELO) 점수(체스 등급)가 컴퓨팅 규모에 따라 선형적으로 증가하는 것을 발견.

"AI 연구자들이 정말 똑똑해졌거나 갑자기 똑똑해진 것이 아닙니다. 우리가 AI를 체계적으로 더 좋게 만드는 매우 간단한 방법을 찾았고, 우리는 그 방법을 계속해서 돌리고 있는 것."


3. AI 능력의 두 가지 축과 미래 전망

카플란은 AI 능력을 두 가지 축으로 설명.

3.1. 유연성 (Flexibility) - Y축

덜 흥미롭지만 여전히 중요한 축은 AI의 유연성. 이는 AI가 우리에게 맞춰줄 수 있는 능력, 즉 다양한 양식(modality)을 다룰 수 있는 능력을 의미. 알파고는 바둑판이라는 제한된 우주에서만 작동했지만, 대규모 언어 모델의 등장 이후 AI는 인간이 다룰 수 있는 거의 모든 양식(텍스트, 이미지, 음성 등)을 처리할 수 있게 되었습니다. He AI 모델이 아직 후각을 가지고 있지는 않지만, 그것도 곧 올 것이라고 예상. Y축을 따라 올라갈수록 AI 시스템은 세상에서 더 많은 관련성 있는 일을 할 수 있게 .

3.2. 작업 시간 범위 (Time Horizon for Tasks) - X축

더 흥미로운 축은 AI 모델이 수행할 수 있는 작업에 사람이 걸리는 시간. AI의 능력이 증가함에 따라 이 시간 범위도 꾸준히 증가하고 . 미터(Meter)라는 조직의 연구에 따르면, AI 모델이 수행할 수 있는 작업의 길이는 약 7개월마다 두 배로 증가하고 .

"이것이 의미하는 바는 사전 학습과 reinforcement learning을 위한 컴퓨팅 scaling을 통해 AI에 내재된 증가하는 지능이 예측 가능하고 유용한 작업을 수행하게 하며, 점점 더 긴 시간 범위의 작업을 포함한다는 것."

이러한 추세는 AI가 몇 분, 몇 시간뿐만 아니라 며칠, 몇 주, 몇 달, 심지어 몇 년이 걸리는 작업까지 수행할 수 있는 지점에 도달할 수 있음을 시사. 궁극적으로는 AI 모델 또는 수백만 개의 AI 모델이 함께 작동하여 전체 인간 조직이나 과학 커뮤니티가 현재 수행하는 작업을 해낼 수 있을 것이라고 예측. For example, 이론 물리학 커뮤니티가 50년 동안 이룰 진전을 AI 시스템이 며칠, 몇 주 만에 이룰 수도 있다는 것.


4. 인간 수준 AI를 위한 남은 과제

카플란은 scaling만으로도 AI가 매우 멀리 갈 수 있지만, 인간 수준 AI를 광범위하게 구현하기 위해 필요한 몇 가지 추가 요소가 있다고 말.

  1. 관련 조직 지식 (Relevant Organizational Knowledge): AI 모델은 단순히 백지상태에서 시작하는 것이 아니라, 마치 수년간 회사, 조직, 정부에서 일한 사람처럼 맥락을 이해하고 그 안에서 작동하는 법을 배워야 . 이는 AI 모델이 지식과 함께 작동할 수 있어야 함을 의미.

  2. 기억 (Memory): 기억은 지식의 한 형태이지만, 카플란은 이를 특정 작업의 진행 상황을 추적하고 관련 기억을 구축하며 사용할 수 있는 능력으로 구분. 클로드 4에 이러한 기능이 구축되기 시작했으며, 점점 더 중요해질 것이라고 .

  3. 감독 (Oversight): AI 모델이 미묘한 차이를 이해하고 어렵고 모호한 작업을 해결하는 능력. 현재는 코드를 작성하거나 수학 문제를 푸는 것처럼 '정확함'과 '부정확함'이 명확한 작업에서 AI 모델을 훈련하기 쉽습니다. 하지만 좋은 농담을 하거나, 좋은 시를 쓰거나, 연구에서 좋은 취향을 가지는 것과 같이 미묘한 보상 신호가 필요한 작업에서는 아직 발전이 필요.

  4. 복잡한 작업 수행 능력 확장: 텍스트 모델에서 다중 모달 모델, 그리고 로봇 공학으로 Y축을 따라 계속 나아가며, AI 모델이 점점 더 복잡한 작업을 수행하도록 훈련해야 . He 향후 몇 년간 이러한 다양한 영역에 스케일이 적용되면서 지속적인 발전이 있을 것이라고 예상.


5. AI 시대에 대한 준비와 조언

카플란은 다가오는 AI 미래에 대비하기 위한 몇 가지 조언을 제시.

  1. 아직 완벽하게 작동하지 않는 것을 구축하라: AI 모델은 매우 빠르게 발전하고 있으므로, 현재 클로드 4가 조금 부족해서 완벽하게 작동하지 않는 제품이라도, 클로드 5가 나오면 작동하여 큰 가치를 제공할 수 . AI가 할 수 있는 것의 경계에서 실험하는 것이 중요.

  2. AI를 활용하여 AI를 통합하라: AI의 주요 병목 현상 중 하나는 너무 빠르게 발전하여 제품, 회사, 과학 등 우리가 하는 모든 것에 통합할 시간이 부족하다는 것. 이 과정을 가속화하기 위해 AI를 활용하여 AI 통합을 수행하는 것이 매우 중요.

  3. AI Introduction이 빠르게 일어날 수 있는 곳을 파악하라: coding 분야에서 AI 통합이 폭발적으로 증가하고 있지만, 소프트웨어 engineering 외에 빠르게 성장할 수 있는 다음 분야가 어디인지 파악하는 것이 중요. He 금융(엑셀 스프레드시트 사용자), 법률 등 많은 기술과 data 상호작용이 필요한 분야가 유망하다고 언급.


6. 클로드 4의 특징과 AI 발전의 방향

클로드 4의 출시와 관련하여 카플란은 몇 가지 중요한 개선 사항을 언급.

  • agent로서의 능력 향상: 클로드 3.7 소넷은 coding에 유용했지만, 때로는 너무 '열성적'이어서 원치 않는 방식으로 test를 통과시키려 . 클로드 4는 coding뿐만 아니라 검색 등 다양한 애플리케이션에서 agent로서의 능력이 향상되었습니다.
  • 감독 능력 개선: 강연에서 언급했던 '감독' 능력이 향상되어, 모델이 사용자의 지시를 더 잘 따르고 코드 품질을 개선하는 데 도움이 .
  • 기억 저장 및 활용 능력 향상: 클로드 4는 복잡한 작업에서 context 창을 넘어서도 기억을 파일이나 기록으로 저장하고 검색하여 작업을 계속할 수 .

He scaling 법칙이 점진적인 발전을 의미하며, 클로드가 각 릴리스마다 다양한 방식으로 꾸준히 개선될 것이라고 강조. 이는 인간 수준 AI 또는 AGI(범용 artificial intelligence)를 향한 부드러운 곡선을 시사.


7. AI와 인간의 협업: 관리자로서의 역할

카플란은 AI가 여전히 많은 어리석은 실수를 저지를 수 있지만, 동시에 놀랍도록 훌륭한 일도 해낼 수 있다고 말. 인간 지능과 AI 지능의 차이점 중 하나는 인간은 자신이 할 수 없는 일이라도 그것이 올바르게 수행되었는지 판단할 수 있다는 것. 반면 AI는 생성 능력과 판단 능력이 훨씬 더 가깝습니다.

"AI와 상호 작용하는 데 있어 사람들이 할 수 있는 주요 역할은 일종의 관리자로서 작업의 건전성을 확인하는 것."

이는 YC(Y Combinator)의 최근 배치에서 관찰된 변화와도 일치. 과거에는 AI가 고객 지원 코파일럿처럼 인간의 최종 승인이 필요한 보조 역할에 머물렀지만, 이제는 AI 모델이 작업을 처음부터 끝까지(end-to-end) 수행할 수 있게 되면서 전체 workflow를 직접 대체하는 제품들이 등장하고 .

카플란은 70~80%의 정확도로도 충분한 사용 사례를 구축하는 것이 더 재미있을 수 있다고 말. 하지만 AI의 신뢰성도 향상되고 있으므로, 점점 더 많은 작업이 AI에 의해 수행될 것. 당분간은 인간과 AI의 협업이 가장 흥미로운 영역이 될 것이며, 가장 진보된 작업에는 여전히 인간의 개입이 필요할 것이라고 덧붙. 하지만 장기적으로는 더 많은 작업이 완전히 automation될 것이라고 예측.


8. AI-인간 협업의 미래와 물리학적 통찰

다리오(Dario)의 에세이 '사랑과 은혜의 기계들(Machines of Love and Grace)'에서 묘사된 낙관적인 미래에 대해 카플란은 이미 생의학 연구 분야에서 AI 모델이 약물 발견과 같은 분야에서 가치 있는 통찰력을 제공하기 시작했다고 언급.

He 지능을 깊이(depth)와 (breadth)이라는 두 가지 측면으로 나눕니다. 수학처럼 하나의 난제를 10년 동안 푸는 것은 깊이 있는 지능의 예시. 반면 생물학, 심리학, 역사와 같이 매우 많은 정보를 다양한 영역에 걸쳐 통합하는 것은 폭넓은 지능의 예시.

"AI 모델은 사전 학습 단계에서 인류 문명의 모든 지식을 흡수. 그래서 저는 AI의 그러한 특징, 즉 어떤 한 인간 전문가보다 훨씬 더 많은 것을 알고 있다는 특징을 활용하여 다양한 전문 분야를 통합하는 통찰력을 이끌어내는 데 많은 성과가 있을 것이라고 생각."

AI는 어려운 coding 문제나 수학 문제와 같은 깊이 있는 작업에서 개선되고 있지만, 인간 전문가가 가질 수 없는 폭넓은 지식을 통합하는 영역에서 특히 유용할 것이라고 예상. 미래가 어떻게 전개될지는 예측하기 어렵지만, scaling 법칙은 이러한 추세가 계속될 것이라는 강력한 지표를 제공.


9. 물리학적 배경이 AI 연구에 미친 영향

카플란은 물리학자로서의 훈련이 AI 연구에 큰 도움이 되었다고 말. 특히 가장 큰 그림, 가장 거시적인 추세를 찾고 그것을 가능한 한 정밀하게 만드는 능력이 유용.

"저는 '학습이 기하급수적으로 수렴하고 있다'고 말하는 뛰어난 AI 연구자들을 만났던 것을 기억. 그리고 저는 '정말 기하급수적인가요? 거듭제곱 법칙일 수도 있지 않나요? 이차 함수인가요? 정확히 어떻게 수렴하고 있나요?'와 같은 정말 멍청한 질문을 ."

이러한 단순하지만 정밀한 질문을 통해 He AI 훈련의 기저에 있는 놀랍도록 정확한 scaling 법칙을 발견할 수 있었습니다. scaling 법칙에서 '더 나은 기울기'를 찾는 것이 궁극적인 목표인데, 이는 더 많은 컴퓨팅을 투입할수록 다른 AI 개발자들보다 더 큰 이점을 얻을 수 있음을 의미.

물리학의 특정 도구(예: 양자장 이론)를 직접 적용한 것은 아니지만, neural network이 거대한 행렬로 구성되어 있다는 점을 고려할 때, 물리학과 수학에서 잘 알려진 '매우 큰 행렬의 극한'과 같은 근사법이 유용했다고 언급. 하지만 He 궁극적으로 매우 순진하고 멍청한 질문을 던지는 것이 가장 큰 도움이 되었다고 강조. AI는 여전히 매우 새로운 분야이며, 해석 가능성(interpretability)과 같은 가장 기본적인 질문들이 아직 답을 찾지 못했기 때문.


10. scaling 법칙의 한계와 컴퓨팅 efficiency

scaling 법칙이 5개 이상의 자릿수에 걸쳐 유지되었다는 점은 놀랍지만, 카플란은 이 법칙이 깨지는 경험적 징후가 나타난다면 어떻게 될지에 대한 질문에 답.

"저는 주로 scaling 법칙을 사용하여 AI 훈련이 고장 났는지 아닌지를 진단."

He scaling 법칙이 실패하는 것처럼 보일 때, 그것은 대부분 자신들이 AI 훈련을 잘못하고 있기 때문이라고 생각한다고 말. For example, neural network architecture가 잘못되었거나, 훈련에 병목 현상이 있거나, algorithm의 정밀도에 문제가 있을 수 있다는 것. 지난 5년간의 경험상 scaling이 깨진 것처럼 보였던 많은 경우들이 결국은 자신들의 실수 때문이었다고 .

컴퓨팅 자원의 희소성에 대한 질문에 대해 카플란은 현재 AI가 매우 비효율적이라고 인정. 앤트로픽과 같은 회사들은 AI 훈련과 추론의 efficiency을 높이는 동시에 최첨단 모델의 잠재력을 여는 데 집중하고 . He 시간이 지남에 따라 추론 및 훈련 비용이 극적으로 낮아질 것이라고 예상. 현재 매년 3배에서 10배의 algorithm적, 컴퓨팅적, 추론 efficiency 향상이 이루어지고 .

"농담처럼 말하자면, 우리는 컴퓨터를 다시 이진수로 되돌릴 것."

이는 시간이 지남에 따라 훨씬 낮은 정밀도(예: FP4, FP2)를 사용하는 것이 추론 efficiency을 높이는 많은 방법 중 하나가 될 것임을 시사. 하지만 현재 AI 개발은 매우 빠르게 변화하고 있으며, 현재 모델의 잠재력을 완전히 실현하기도 전에 새로운 기능들이 계속해서 등장하고 .

He AI가 더 이상 빠르게 변하지 않는 '균형 상태'가 온다면 AI는 극도로 저렴해질 것이라고 말. 하지만 AI가 너무 빠르게 발전하여 지능의 향상이 더 많은 가치를 창출한다면, 우리는 계속해서 최첨단 기능에 집중할 수도 있다고 덧붙. 이는 제본스의 역설(Jevons paradox)과 유사하게, 지능이 향상될수록 사람들이 더 많은 AI를 원하게 되어 비용이 낮아지지 않을 수 있다는 점을 시사.

카플란은 대부분의 가치가 가장 유능한 모델에서 나올 것이라고 예상. 복잡한 작업을 처음부터 끝까지 수행할 수 있는 AI 모델을 사용하는 것이, 더 단순한 모델을 인간이 세분화하여 조율하는 것보다 훨씬 편리하기 때문.


11. 미래 인재를 위한 조언

카플란은 젊은 청중들에게 미래에 AI 모델이 더욱 발전할 때 어떻게 관련성을 유지할 수 있을지에 대한 조언을 제공.

  • 모델 작동 방식 이해 및 효율적 활용: AI 모델이 어떻게 작동하는지 이해하고, 이를 효율적으로 활용하며 통합하는 능력에 큰 가치가 .
  • 최전선에서 구축하기: AI가 할 수 있는 것의 경계에서 새로운 것을 구축하는 것이 중요.

12. 질의응답: scaling 법칙의 비선형성 및 data 수집

12.1. scaling 법칙의 선형성과 작업 시간의 기하급수적 성장

청중 중 한 명이 scaling 법칙 그래프는 선형적인 발전을 보여주는데, 왜 작업 시간 절약은 기하급수적으로 증가하는지 질문. 카플란은 이에 대해 명확한 답은 없지만, 미터(Meter)의 발견은 경험적인 것이라고 말. He 더 복잡하고 긴 시간 범위의 작업을 수행하기 위해서는 자기 수정(self-correction) 능력이 필요하다고 설명.

"계획을 세우고 실행하기 시작However, 우리의 계획은 쓸모없고 현실에 부딪히며 잘못된 것을 알게 . 그래서 모델이 무엇인가 잘못하고 있다는 것을 알아차리고 그것을 수정하는 능력이 작업의 시간 범위를 결정하는 많은 부분을 차지한다고 생각."

실수를 한두 번 더 알아차리고 수정하는 데는 지능의 큰 변화가 필요하지 않지만, 실수를 수정하면 작업의 시간 범위가 두 배로 늘어날 수 있다고 비유. In other words, 상대적으로 작은 지능 개선이 작업의 시간 범위를 기하급수적으로 늘릴 수 있다는 것.

12.2. 장기 작업 훈련을 위한 data 수집

또 다른 질문은 AI 모델의 시간 범위를 늘리기 위해 어떻게 data를 수집하고 검증 신호를 얻는지에 대한 것이었습니다. coding처럼 명확한 검증이 가능한 분야는 쉽지만, 다른 도메인에서는 어떻게 해야 하는지에 대한 질문이었습니다.

카플란은 AI 발전의 최악의 시나리오는 AI 모델이 수행할 더 복잡하고 긴 시간 범위의 작업을 계속해서 만들고, reinforcement learning을 통해 훈련하는 운영 집약적인(operationally intensive) 경로라고 말. 하지만 AI에 대한 investment와 창출되는 가치를 고려할 때, 필요하다면 사람들이 그렇게 할 것이라고 덧붙.

하지만 더 간단한 방법도 . 바로 AI 모델이 다른 AI 모델을 감독하고 감독하는 것. For example, 클로드를 훈련할 때 다른 AI 모델이 감독을 제공하여 "이 복잡한 작업을 올바르게 수행했는가?"와 같은 질문 대신 "이것은 잘하고 있고, 이것은 잘 못하고 있다"와 같은 더 상세한 feedback을 제공하는 것. 이러한 방식으로 AI를 더 많이 활용할수록 매우 긴 시간 범위의 작업을 위한 훈련을 더 효율적으로 만들 수 있으며, 이미 어느 정도 그렇게 하고 있다고 .

마지막 질문은 reinforcement learning에 사용되는 작업을 생성할 때 대규모 언어 모델을 사용하는지, 아니면 여전히 인간을 사용하는지에 대한 것이었습니다. 카플란은 혼합된 방식을 사용한다고 답. 가능한 한 AI를 사용하여 작업을 생성However, 인간에게도 작업을 생성하도록 요청. AI가 점점 더 발전함에 따라 AI를 더 많이 활용할 수 있기를 바라지만, 작업의 난이도도 계속 증가하기 때문에 인간의 참여는 여전히 필요할 것이라고 Conclusion지었습니다.


Conclusion

재러드 카플란의 강연은 AI 발전의 핵심 동력이 scaling 법칙에 있으며, 이는 AI가 예측 가능하고 놀라운 속도로 발전하고 있음을 보여줍니다. He AI가 인간 수준의 지능에 도달하기 위해 필요한 조직 지식, 기억, 그리고 미묘한 감독 능력과 같은 추가적인 요소들을 제시하며, 미래 AI 시대에 우리가 어떻게 준비하고 기회를 포착해야 할지에 대한 실질적인 조언을 제공. 특히 AI와 인간의 협업이 중요하며, 인간은 AI의 '관리자'로서 중요한 역할을 수행할 것이라는 통찰은 AI 시대의 새로운 역할 모델을 제시.

Related writing

Related writing