유튜브 100만 시간 시청으로 로봇 문제를 우연히 해결한 이야기

상상해보세요. 💭
당신이 인류 역사상 가장 거대한 언어 모델을 만들기 위해 6400억 달러를 쏟아부었습니다. 이름도 거창하게 "베히모스(Behemoth)"라고 붙였죠. 이 모델은 왓츠앱에서 귀찮게 굴 수도 있고, 미적분 문제도 풀어주고, 철학 박사처럼 논쟁도 할 수 있습니다.

하지만,

"주방에서 커피잔 하나 집어줘"
라고 하면?
전혀 못합니다.

아무리 거대한 언어 모델을 만들어도, 로봇은 여전히 세상 물정 모릅니다. 인터넷에 있는 텍스트만으로는 3차원 공간에서 실제로 물체가 어떻게 움직이는지를 배울 수 없기 때문이죠.
아무리 "단계별로 생각해봐"라든지, 체인 오브 쏘트(COT) 프롬프트를 써도, 이 수다쟁이 AI가 주방 쓰레기통이 어디 있는지 알려주진 못합니다.

그런데,

"해답은 이미 눈앞에 있었던 것 아닐까요? 비밀 재료는 더 많은 토큰이 아니라, 더 많은 동영상이었습니다!"

"왜 진작 이 생각을 못 했을까?" 순간

우리가 AI 에이전트로 항공권 예약이나 시키고 있을 때, 모두가 잊고 있던 사실이 있습니다.
로봇이 필요한 건 언어가 아니라, 물리학이라는 점이죠.

여기서 등장한 것이 바로 V-JEPA 2입니다.
이 모델은

"신경망에 유튜브 100만 시간을 먹이고, 다음에 무슨 일이 일어날지 예측하게 해보면 어떨까?"
라는 아이디어에서 출발했습니다.
즉, 다음 단어가 아니라, 다음 현실의 순간을 예측하는 거죠.

이 방식은

"완전히 새로운 실험실에 로봇을 배치해도, 한 번도 본 적 없는 물체를 척척 집어올리는"
정도의 실력을 보여줍니다.

내부의 아름다움: 픽셀이 아니라, 표현 공간에서 예측하라

예전에는 AI가 예쁜 그림을 그리는 데 집착했지만, V-JEPA 2는

"잡음 따위 신경 쓰지 마!"
라며 잠재 공간(latent space)에서 예측하기로 했습니다.

왜냐하면,

"모든 픽셀을 예측하는 건, 축구공이 골대에 들어가는지 궁금한데 잔디의 모든 잎을 예측하는 것과 같다"
는 것이죠.

이 마법은 세 단계로 이루어집니다:

인코더: 10억 개의 파라미터를 가진 ViT-g가 영상을 보고

"아, 이 물리적 상황의 본질을 이해했어"
라고 말합니다.
예측기: 더 작은 신경망이 영상의 일부를 가리고,

"이 빈칸에 뭐가 들어갈까?"
라며 마치 고급진 영상 마들립 게임을 합니다.
3D-RoPE: 기존의 2D 위치 임베딩을 넘어,

"3차원에서 위치 정보를 제대로 반영하자!"
라는 접근을 택합니다.

마스킹 전략

모델에게 모든 영상을 다 보여주는 대신, V-JEPA 2는 영상의 일부(튜블릿, tubelet)를 무작위로 가립니다.
모델은

"이 가려진 부분에서 무슨 일이 일어났을까?"
를 맞혀야 하죠.

데이터와 모델의 스케일업

이전: 200만 개 영상(귀엽죠)
이후: 2200만 개 영상 + 100만 장 이미지(이제야 제대로!)

이들은 something-something v2, kinetics, howto100m, 그리고 유튜브의 수많은 영상을 긁어모았습니다.

모델 크기: 클수록 좋다(가끔은)

300M에서 10억 파라미터까지 키웠습니다.
ViT-g 인코더는 비전 트랜스포머의 끝판왕이라 할 만합니다.

점진적 해상도 학습: "끓는 개구리" 전략

처음부터 고해상도 영상으로 학습시키면 컴퓨팅 비용이 너무 커지니,

"처음엔 작은 해상도, 점점 키워가자!"
라는 커리큘럼 러닝을 적용했습니다.

16프레임 256² → 64프레임 384²

V-JEPA 2-AC: 진짜 하이라이트

물리학을 이해하는 월드 모델도 멋지지만, 로봇에게 필요한 건 행동 가능한 물리학입니다.
즉,

"내 팔을 이렇게 움직이면 세상에 무슨 일이 일어날까?"
를 아는 것이죠.

그래서,

사전학습된 V-JEPA 2를 동결(파라미터 고정)시키고,
3억 파라미터짜리 트랜스포머를 붙여,
실제로 행동을 했을 때 세상이 어떻게 변하는지 예측하게 했습니다.

여기서 놀라운 점은,

"학습 데이터가 단 62시간짜리 로봇 영상뿐"
이라는 겁니다.
성공한 영상, 실패한 영상 가리지 않고, 프랑카(Franka) 로봇 팔이 이것저것 하는 날것 그대로의 데이터를 사용했습니다.

"데이터 큐레이션과 성공/실패 비율에 대한 실험은 앞으로 더 해볼 만한 흥미로운 주제입니다."

에너지 최소화의 마법

로봇을 실제로 제어할 때, V-JEPA 2-AC는 일종의 "뜨겁다, 차갑다" 게임을 합니다.

현재 상태를 본다
목표 상태를 본다
가능한 여러 행동 시퀀스를 상상한다
목표에 가장 가까워지는 행동을 고른다
첫 번째 행동을 실행한다
목표 달성 또는 실패할 때까지 반복

"월드 모델 위에서의 모델 예측 제어(MPC)는 이 논문의 가장 멋진 부분 중 하나입니다."

제로샷 일반화(=진짜 하이라이트)

이 모델을,

한 데이터셋에서만 학습시키고,
완전히 다른 실험실의 프랑카 로봇 팔에 적용해봤습니다.

조명, 물체, 환경 모두 달랐죠.

성공률:

도달(reach): 100%

"물리학을 이해하면, 공간의 한 지점으로 이동하는 건 식은 죽 먹기"
컵 집기(grasp cup): 65%

"컵은 생각보다 어렵다네요"
집어서 옮기기(pick and place): 65~80% (물체 난이도에 따라 다름)

기존 방식들은 도달 외에는 거의 실패했지만, 이 모델은 훨씬 뛰어난 성능을 보였습니다.

속도도 빠르다!

V-JEPA 2-AC: 행동 하나당 16초
기존 확산모델(diffusion): 행동 하나당 4분

로봇공학자와 LLM 해커를 위한 요약

로봇공학자에게:

제로샷 일반화: 처음 보는 물체도 바로 작동
데이터 효율성: 62시간 영상이면 충분 (기존엔 수천 시간 필요)
실제 배포 가능: 계획 수립이 수 초면 끝남

LLM 해커에게:

여기서 반전이 있습니다.
V-JEPA 2를 8B 언어모델과 결합해 비디오 질문응답에서 SOTA(최신 최고 성능)를 달성했습니다.

PerceptionTest: 84.0%
TempCompass: 76.9%

"언어 감독 없이 사전학습된 비디오 인코더가, 이미지-텍스트 쌍으로 학습된 모델을 이겼다니!
세상을 이해하려면 언어 감독이 필수라는 기존 상식이 한 방에 날아갔습니다."

한계점(=모든 게 장밋빛은 아니다)

카메라 위치 민감성

모델이 카메라 위치에 굉장히 예민합니다.

"카메라를 10도만 움직여도, 왼쪽이 오른쪽이 되고 위가 아래가 됩니다."
실제로는 카메라 위치를 손수 조정해야 하죠.
"아주 과학적이고, 매우 엔지니어링적입니다."

장기 계획의 어려움

몇 단계 이상 길게 계획하면 모델이

"환각(hallucination)을 시작합니다.
그건 좀 힘들죠."

언어 목표 문제

지금은

"로봇에게 시키고 싶은 일을 사진으로 보여줘야 합니다."
예를 들어, "주방을 치워줘"라고 하려면 깨끗한 주방 사진이 필요하죠.

"미래에는 '샌드위치 만들어줘' 같은 언어 명령만으로도 동작하게 하는 게 목표입니다.
저도 이 부분 연구 중이니, 관심 있으면 연락 주세요!"

미래에 대한 상상

앞으로는

"월드 모델이 텍스트 모델 못지않게 현실 세계를 잘 이해하는 시대가 올지도 모릅니다."
즉,
"물리학을 이해하는 로봇이, 언어를 이해하는 챗GPT만큼 똑똑해질 수 있다는 거죠!"

요약(TL;DR by Claude)

속성	V-JEPA 2	확산모델	BC-정책
이해력	✨	🤷	🤷
계획 속도	🚀	🐌	🐌
제로샷 마법	✅	❌	❌
데이터 효율성	📈	📉	😐
커피 만들기 가능	아마도	글쎄	그럭저럭

마무리

"PCA로 VJEPA를 시각화한 멋진 영상도 있으니 여기에서 확인해보세요!"

더 궁금하다면

논문
코드
도 참고해보세요.

아니면,

"당신의 룸바가 47번째로 같은 의자 다리에 부딪히는 걸 보며, 우리가 얼마나 멀리 왔는지 곱씹어보는 것도 좋겠네요." 🤖

핵심 키워드:

V-JEPA 2
유튜브 100만 시간
표현 공간(latent space) 예측
제로샷 일반화
데이터 효율성
로봇 행동 예측
에너지 최소화
비디오 기반 월드 모델
언어 감독 없는 SOTA
카메라 위치 민감성
장기 계획 한계
미래의 로봇 AI