Andrej Karpathy가 말하는 Veo 3와 AI 비디오 생성의 혁신 🚀

1. Veo 3에 대한 첫인상과 오디오의 중요성

Andrej Karpathy는 Veo 3의 등장과, 사람들이 r/aivideo 등에서 발견하고 있는 다양한 사례들에 깊은 인상을 받았다고 말합니다.

"Veo 3와 사람들이 r/aivideo 등에서 찾아내는 모든 것들에 정말 감명받았습니다. 오디오를 추가하면 질적으로 큰 차이가 납니다."

여기서 오디오의 추가가 비디오의 질을 크게 높인다는 점을 강조하고 있어요.
즉, 영상에 소리가 더해지면 전달력과 몰입감이 훨씬 커진다는 의미죠. 🎧

2. 비디오 생성의 4가지 거시적 측면

Karpathy는 비디오 생성에 대해 우리가 충분히 인식하지 못하고 있는 4가지 큰 측면을 짚어줍니다.

2-1. 비디오는 뇌에 가장 많은 정보를 전달하는 매체

"비디오는 뇌에 들어가는 가장 높은 대역폭의 입력입니다. 단순히 오락뿐만 아니라, 작업이나 학습에도 마찬가지죠. 다이어그램, 차트, 애니메이션 등을 생각해보세요."

비디오는 텍스트보다 훨씬 많은 정보를 빠르게 전달할 수 있어요.
학습이나 업무에서도 비디오가 점점 더 중요한 역할을 하게 됩니다.

2-2. 비디오는 쉽고 재미있다

"평범한 사람들은 읽거나 쓰는 걸 별로 좋아하지 않습니다. 굉장히 힘든 일이죠. 누구나 비디오에는 쉽게 (그리고 원해서) 참여할 수 있습니다."

읽기/쓰기는 많은 노력이 필요하지만, 비디오는 누구나 쉽게 접근하고 즐길 수 있어요.
그래서 대중성이 높죠! 😄

2-3. 비디오 제작의 장벽이 0에 가까워진다

"비디오를 만드는 장벽이 0에 가까워지고 있습니다."

AI 덕분에 누구나 쉽게 비디오를 만들 수 있는 시대가 오고 있다는 의미예요.

2-4. 비디오가 처음으로 '직접 최적화' 가능해졌다

"처음으로, 비디오가 직접적으로 최적화될 수 있게 되었습니다. 이 점의 무게를 좀 더 강조하고 싶어요."

지금까지 비디오는 사람이 만들고, AI가 추천하는 구조였어요.
이제는 AI가 직접 비디오를 만들고, 원하는 목표(예: 시청자 참여, 광고 클릭 등)에 맞춰 최적화할 수 있게 된 거죠.

3. 기존 비디오 시스템의 한계와 AI 비디오의 혁신

Karpathy는 기존의 TikTok 같은 플랫폼을 예로 들며, 지금까지의 비디오 시스템이 얼마나 비효율적이었는지 설명합니다.

"지금까지 비디오는 인간이 (비용을 들여) 만든 유한한 후보들을 인덱싱, 랭킹, 제공하는 것이 전부였습니다. TikTok의 경우, 사람들의 관심을 끌기 위해 크리에이터가 영상을 만들고, 어떤 영상을 누구에게 보여줄지 결정하는 게 핵심이었죠."

인간 크리에이터가 영상을 만들고, 알고리즘이 추천하는 방식은 최적화에 한계가 있었어요.
Karpathy는 이 시스템을 "매우, 매우 형편없는 최적화기"라고 표현합니다.

"사람들이 이미 TikTok에 중독되어 있으니 꽤 괜찮은 시스템처럼 보이지만, 제 생각엔 원리적으로 가능한 것에 비하면 한참 못 미칩니다."

4. Veo 3와 AI 비디오 생성의 새로운 가능성

이제 Veo 3와 같은 AI 비디오 생성기는 완전히 새로운 방식을 제시합니다.

"Veo 3와 그 친구들이 만들어내는 비디오는 신경망의 산출물입니다. 이건 미분 가능한 과정이에요. 이제 임의의 목표를 세우고, 경사하강법(gradient descent)으로 그 목표를 달성할 수 있습니다."

신경망이 직접 비디오를 만들고, 목표(예: 시청자 반응, 광고 클릭 등)에 맞춰 최적화할 수 있어요.
경사하강법은 AI가 목표에 맞게 스스로 개선해나가는 방법이에요.

"이 최적화기는 지금까지 우리가 본 것보다 훨씬, 훨씬 더 강력할 거라고 기대합니다."

AI가 직접 비디오를 최적화하는 시대가 오면, 지금의 TikTok도 비교가 안 될 정도로 강력한 시스템이 될 수 있다는 거죠.

5. 무한 생성과 직접 최적화의 의미

"이제는 예를 들어, 참여도(engagement)나 동공 확장(pupil dilation) 같은 지표에 맞춰 생성된 비디오를 직접 최적화할 수 있습니다. 광고 클릭 전환(ad click conversion)도 마찬가지죠. 왜 유한한 비디오 집합을 인덱싱해야 하나요? 무한히 생성하고 직접 최적화할 수 있는데요."

AI는 무한히 비디오를 만들고, 원하는 목표에 맞춰 바로바로 개선할 수 있어요.
기존의 '추천' 방식이 아니라, '생성+최적화' 방식으로 진화하는 거죠.

6. AI와 인간의 소통, 창의성의 새로운 장

"비디오는 AI와 인간이 소통하는 놀라운 표면이 될 잠재력이 있습니다. 미래의 AI GUI(그래픽 사용자 인터페이스)도 마찬가지죠. 정말 멋진 다이어그램이나 애니메이션을 보면, 텍스트 벽보다 훨씬 쉽게 이해할 수 있다는 걸 생각해보세요."

AI가 비디오로 직접 설명하거나 소통하는 시대가 올 수 있어요.
인간의 창의성도 비디오를 통해 새로운 방식으로 펼쳐질 수 있죠. 🎨

7. 그러나, '최적화된' 비디오의 미래는 과연 좋은가?

"하지만 이 본질적이고, 대역폭이 높은 매체가 이제 직접적으로 최적화될 수 있게 되었습니다. 제 생각에, TikTok은 앞으로 가능한 것에 비하면 아무것도 아닙니다. 그리고 '최적화된' 모습이 과연 우리가 좋아할 만한 것일지 확신이 들지 않습니다."

AI가 '최적화'한 비디오가 정말로 인간에게 좋은 것일지, Karpathy는 우려를 표합니다.
중독성, 조작 가능성 등 새로운 문제도 생길 수 있다는 의미예요. 🤔

8. Veo 3의 실제 사례

마지막으로, Veo 3가 출시된 지 하루 만에 나온 놀라운 예시들을 언급합니다.

"구글이 Veo 3를 공개한 지 겨우 하루밖에 안 됐습니다. 이 새로운 모델은 하나의 프롬프트로 비디오와 오디오를 동시에 만들어냅니다! 지금까지 나온 13가지 놀라운 예시 중 하나: 1. 자의식을 가진 AI 캐릭터"

Veo 3는 프롬프트 하나로 비디오와 오디오를 동시에 생성할 수 있어요.
자의식 있는 AI 캐릭터 등, 상상도 못했던 새로운 비디오들이 등장하고 있습니다.

핵심 키워드 정리

Veo 3
AI 비디오 생성
오디오의 중요성
비디오의 대역폭
접근성/대중성
비디오 제작 장벽
직접 최적화
경사하강법(gradient descent)
무한 생성
AI ↔ 인간 소통
창의성
최적화의 미래

마무리

Karpathy의 글은 AI 비디오 생성이 가져올 혁신과, 그에 따른 기회와 우려를 모두 짚어줍니다.
Veo 3와 같은 기술이 앞으로 우리의 소통, 학습, 창작 방식을 어떻게 바꿀지, 그리고 그 변화가 과연 긍정적일지 고민해볼 필요가 있겠죠! 😊