EP 81. DeepSeek이 바꾼 모든 것: MoE와 RLVR, 2025년 AI 총결산

2025년 12월 27일 토요일 아침, 올 한 해 AI 생태계를 뒤흔든 DeepSeek(딥시크)와 그로 인해 주류가 된 MoE(전문가 믹스) 및 RLVR(검증 가능한 보상 기반 강화학습)의 흐름을 되짚어봅니다. 중국이 주도한 오픈 프런티어 모델들의 약진과 '레시피'의 확산 과정을 분석하고, 다가오는 2026년에는 스케일 업과 자율 에이전트가 어떤 변화를 가져올지 심도 있게 예측합니다.

1. 2025년 회고: DeepSeek가 쏘아 올린 패러다임의 변화

2025년은 연초부터 DeepSeek(딥시크)가 불러온 충격과 함께 시작되었습니다. R1 모델과 DeepSeek 사태는 단순한 기술 공개를 넘어 AI 모델 개발의 패러다임을 완전히 바꾸어 놓았습니다. 김성현 님은 2025년이 거대한 충격 이후, 그 새로운 패러다임을 이해하고 발전시키는 '점진적인 진보'의 시간이었다고 회고합니다.

특히 가장 눈에 띄는 변화는 중국 주도의 오픈 프런티어 모델 전성시대였습니다. 2024년까지만 해도 한정된 자원 안에서 효율적인 '적당한 크기의 모델'을 만드는 것이 트렌드였지만, 2025년에는 모든 기업이 프런티어(최고 성능)를 지향하게 되었습니다.

"DeepSeek, MiniMax, Z.ai, 샤오미, 텐센트, 문샷 등 수많은 중국 기업들이 모델을 내놨는데, 예전에는 70B 정도 규모였다면 2025년에 나온 모델들은 거의 다 프런티어 혹은 니어(near) 프런티어급 모델들입니다. 거의 모든 기업이 프런티어를 지향하고 있다는 게 2025년의 가장 큰 변화인 것 같아요."

"재미있는 건 이 모델들이 다 중국 모델이라는 겁니다. 중국 외에는 프런티어라고 부를 만한 인상적인 오픈 모델이 거의 없었어요. Llama 4도 있었지만 큰 인상을 남기지 못했죠."

중국 기업들은 상대적으로 부족한 컴퓨팅 파워(GPU 등)를 가지고도 프런티어 레벨에 도달할 수 있다는 것을 DeepSeek가 증명하자, 너도나도 더 크고 강력한 모델 경쟁에 뛰어들었습니다.

2. MoE(전문가 믹스)의 대중화와 효율성 혁명

2025년의 가장 중요한 키워드 중 하나는 단연 MoE(Mixture of Experts)입니다. DeepSeek가 정립한 MoE 아키텍처는 이제 업계의 표준 '레시피'가 되었습니다.

2.1. MoE의 압도적인 효율성 (Compute Multiplier)

김성현 님은 훈련 연산량(Training Compute) 대비 성능을 보여주는 그래프를 통해 MoE의 장점을 설명합니다. 핵심은 스파시티(Sparsity, 희소성)에 있습니다.

"10의 24승 정도의 연산량(Compute)에서 MoE 모델은 일반적인 덴스(Dense) 모델보다 성능이 7배 이상 좋습니다. 즉, 같은 연산량을 투입했을 때 MoE를 쓰면 덴스 모델에 7배의 연산량을 쏟아부은 것과 맞먹는 성능이 나옵니다."

"더 충격적인 건 훈련 연산량이 늘어날수록 이 배수(Multiplier)가 더 커진다는 점이에요. 갈수록 격차가 벌어지니 이제는 MoE를 안 쓰는 게 이상한 상황이 된 거죠."

2.2. 모듈화와 라우팅

MoE는 수많은 전문가(Expert) 모듈 중 특정 토큰 처리에 필요한 일부만 활성화하여 사용합니다. 이는 전체 파라미터 수는 매우 크지만, 실제로 사용하는 파라미터는 적게 유지하여 효율성을 극대화하는 방식입니다.

"DeepSeek가 설계한 아키텍처가 마치 이전 세대의 Llama 아키텍처처럼 베이스 아키텍처가 되었습니다. 문샷(Moonshot) 같은 곳에서도 'DeepSeek 아키텍처를 굳이 개선할 필요가 없다, 이걸 그대로 가져다 쓰면 된다'라고 할 정도로 정답지가 되었죠."

3. RLVR과 에이전트 포스트 트레이닝의 부상

2025년의 또 다른 핵심은 RLVR(Reinforcement Learning with Verifiable Reward)입니다. 이는 o1 모델의 비밀을 사실상 드러낸 기법으로, 모델이 추론(Reasoning)하고 도구를 사용하는 과정을 획기적으로 개선했습니다.

3.1. 에이전트 훈련의 정석이 된 RLVR

과거에는 챗봇을 만들기 위해 RLHF(인간 피드백 기반 강화학습)를 썼다면, 이제는 에이전트(Agent)를 만들기 위해 RLVR을 사용합니다.

"RLHF가 챗봇을 만들기 위한 포스트 트레이닝이었다면, RLVR은 에이전트를 만들기 위한 포스트 트레이닝이라고 봐도 무방할 것 같습니다."

3.2. 결과 중심의 평가

RLVR의 핵심은 과정이 아니라 최종 결과를 보고 보상을 주는 것입니다. 예를 들어 코딩 에이전트라면, 모델이 어떤 도구를 어떻게 썼는지 일일이 간섭하지 않고, 최종 코드가 유닛 테스트를 통과했는지만 확인합니다.

"모델이 도구를 어떻게 쓸지는 일단 제쳐두고, 최종 결과만 가지고 평가하자는 패러다임으로 바뀐 겁니다. 유닛 테스트처럼 검증 가능한 결과가 나오면 보상을 주는 식이죠. 이 과정을 통해 모델이 스스로 에이전트로서 학습하게 됩니다."

4. RL에 대한 새로운 이해: 원자적 기술과 조합 능력

2025년은 강화학습(RL)에 대한 이해도가 깊어진 해이기도 합니다. 단순히 숨겨진 능력을 꺼내는 것을 넘어, 새로운 차원의 능력을 갖게 한다는 시각이 대두되었습니다.

4.1. 아토믹 스킬(Atomic Skills) vs 조합 능력(Compositional Abilities)

사람들이 RL을 통해 모델이 배우는 것이 무엇인지 분석한 결과, '조합하는 능력'이라는 결론에 도달했습니다.

아토믹 스킬(Atomic Skills): 사칙연산과 같은 개별적인 기초 능력. 이는 사전 학습(Pre-training) 단계에서 배웁니다.
조합 능력(Compositional Abilities): 기초 기술들을 엮어서 복잡한 문제를 해결하는 능력. 이는 RL을 통해 배웁니다.

"사칙연산 같은 아토믹 스킬은 프리 트레이닝 때 배우지만, 이 기술들을 적절한 순서로 잘 조합해서 새로운 문제를 해결하는 능력, 즉 '조합 능력'은 RL을 통해 배울 수 있다고 봅니다."

"그래서 '에이전트에 필요한 아토믹 스킬들을 미드 트레이닝(Mid-training) 단계에서 확실히 주입해 놓자, 그러면 RL로 그걸 조합할 수 있다'는 식의 접근이 가능해졌습니다."

4.2. RL 인프라의 발전

훈련(Training), 샘플링(Sampling), 환경(Environment) 상호작용이 복잡하게 얽힌 RL 인프라를 얼마나 빠르고 정확하게 구축하느냐가 핵심 경쟁력이 되었습니다.

5. 논문에 나오지 않는 '암묵지'와 데이터 전쟁

DeepSeek가 레시피를 공개했음에도 불구하고 왜 중국과 미국만 앞서가는지에 대한 논의도 있었습니다. 결론은 논문에 적히지 않은 암묵지(Tacit Knowledge)와 데이터에 있었습니다.

"하이퍼 파라미터 설정이나 인프라 노하우 같은 건 논문에 잘 안 나옵니다. 특히 포스트 트레이닝을 위한 데이터를 어떻게 만드느냐는 더욱 숨겨진 지식이죠. 이 데이터를 만드는 노하우가 결국 최종 제품의 퀄리티를 결정합니다."

"모델은 제품이고, 데이터는 모델이다(The model is the product, and the data is the model)라는 말이 있어요. 데이터 가공을 위해 오픈 모델들을 사용하는 등, 데이터 자체가 가장 중요한 이슈라는 건 변함이 없습니다."

6. 2026년 전망 ①: 스케일 업(Scale-Up)과 데이터 병목

이제 시선은 2026년으로 향합니다. 2025년에 효율성을 검증했다면, 2026년에는 다시 한번 거대한 스케일 업이 일어날 것으로 예측됩니다.

6.1. 더 큰 모델, 더 많은 학습

현재 프런티어 모델들은 총 파라미터는 크더라도 실제 활성화되는 파라미터(Active Parameters)는 100B 이하인 경우가 많습니다. 연구자들은 "이 정도 크기에서도 잘 되는데, 더 키우면 어떻게 될까?"라는 질문을 던지고 있습니다.

"중국 기업들도 다 스케일 업을 원하고 있어요. '프리 트레이닝을 더 큰 스케일로 해보면 어떨까?' 하는 거죠. 딥시크 V3에서도 모델이 커지니까 RLVR이 더 잘 작동한다는 걸 경험했거든요. 2026년에는 분명히 더 크고 오래 학습한 모델들이 등장할 겁니다."

6.2. 데이터의 롱테일 문제

하지만 가장 큰 걸림돌은 데이터입니다. 자율주행이 99%에서 99.9%로 가는 것이 가장 어렵듯, AI 모델도 더 복잡하고 정교한 작업을 수행하려면 엣지 케이스(Edge case)를 포함한 양질의 데이터가 필요합니다.

"지금 프런티어 기업들이 엄청난 자원을 써서 데이터를 만들고 있는데, '이걸 언제까지 계속해야 하나' 하는 생각이 들 겁니다. 자율주행처럼 99.9%를 달성하기 위해 수많은 엣지 케이스 데이터를 끊임없이 모으는 것, 그게 지금 가장 큰 병목입니다."

7. 2026년 전망 ②: 새로운 패러다임과 자율 에이전트

단순한 성능 향상을 넘어, 2026년에는 질적으로 다른 새로운 패러다임이 등장할 가능성이 높습니다. (김성현 님은 그 가능성을 50%로 보았습니다.)

7.1. 진정한 자율 에이전트 (Autonomous Agents)

현재의 코딩 에이전트는 사람이 시키면 하고, 결과를 검토받는 식입니다. 하지만 미래의 에이전트는 스스로 코드를 개선하고 프로젝트를 진행합니다.

"사람이 시키지 않아도 밤새 알아서 코드를 최적화해 놓고 기능을 추가해 놓는 에이전트, 이런 게 나오면 경제적 가치가 질적으로 달라질 겁니다. 사람이 자율성을 가지고 일하듯이 모델도 자율성을 가질 때 진짜 임팩트가 나옵니다."

7.2. 지속적 학습 (Continual Learning)

사람이 데이터를 떠먹여 주는 것이 아니라, 모델이 스스로 무엇을 배울지 찾아서 배우는 단계입니다.

"모델이 스스로 데이터를 발견하고 학습하는 것, 그게 지속적 학습입니다. 단순히 데이터를 계속 넣어주는 게 아니라, 모델이 '무엇을, 왜 배워야 하는지' 스스로 발견하는 능력이 핵심이 될 겁니다."

7.3. 셀프 플레이(Self-Play)와 내재적 동기

바둑처럼 승패가 명확한 게임이 아닌, 수학이나 코딩 같은 영역에서 셀프 플레이를 구현하는 것은 매우 어렵습니다. 단순히 어려운 문제를 만드는 게 아니라, '인간에게 의미 있고 흥미로운 문제'를 만들어야 하기 때문입니다.

"결국 이 문제는 '내재적 동기(Intrinsic Motivation)'와 '인간 얼라인먼트(Alignment)'로 귀결됩니다. 인간이 흥미로워하는 가치 있는 문제를 찾아내려는 동기를 모델에게 줘야 하고, 그 동기는 인간의 가치와 정렬되어 있어야 합니다."

마무리: 불확실성을 즐기는 태도

지금의 AI 투자가 거품이 아니냐는 우려 속에서도, 2026년에는 이를 증명하기 위한 획기적인 기술적 도약이 필요하다는 데에 의견이 모아졌습니다. 맨해튼 프로젝트나 아폴로 프로젝트처럼, 누군가 먼저 성공하면 승자독식할 수 있는 거대한 전쟁이 진행 중입니다.

"2026년에 어떤 일이 일어날지 확률은 반반이지만, 저는 그냥 즐기기로 했습니다. 미래가 예측 불가능해지고 있지만, 기술 발전 그 자체에 집중하면 그 나름대로의 즐거움이 있는 것 같아요." - 김성현

"2025년에 '아, 이건 이렇게 하면 되는구나'라고 배웠던 것들을 2026년에는 다시 다 잊어버리고(Unlearn) 새로 배워야 할 확률이 높습니다. 하지만 그 변화가 도파민을 돌게 하고 기대가 됩니다." - 최승준

DeepSeek가 쏘아 올린 2025년의 변화는 시작에 불과할지도 모릅니다. 다가올 2026년, 스케일 업과 새로운 패러다임이 가져올 또 다른 AI의 도약을 기대하며 EP.81 요약을 마칩니다. 👋