넷플릭스의 대담한 도전: 하나의 모델로 모든 추천을 혁신하다

넷플릭스의 예수 펑(Yesu Feng)은 이번 발표에서 넷플릭스가 추천 시스템을 혁신하기 위해 '하나의 기반 모델(Foundation Model)'을 도입한 여정을 상세히 소개합니다. 이 모델은 다양한 추천 상황을 하나의 통합된 모델로 해결하려는 대담한 시도입니다. 발표는 넷플릭스의 추천 시스템이 가진 복잡성과, 이를 해결하기 위한 기술적 접근, 그리고 실제 적용 사례와 앞으로의 방향까지 폭넓게 다룹니다.

넷플릭스 추천 시스템의 복잡성

넷플릭스의 추천 시스템은 매우 다양한 요구를 가지고 있습니다. 예수 펑은 넷플릭스의 홈 화면을 예로 들며, 추천의 다양성이 최소 세 가지 차원에서 나타난다고 설명합니다.

행(Row) 단위의 다양성
- 장르별(코미디, 액션 등), 신규/트렌딩, 넷플릭스 독점 등 다양한 행이 존재합니다.
아이템(콘텐츠) 단위의 다양성
- 기존 영화, TV쇼뿐 아니라 게임, 라이브 스트리밍 등 콘텐츠 유형이 계속 확장되고 있습니다.
페이지 단위의 다양성
- 홈, 검색, 키즈 홈, 모바일 피드 등 각 페이지마다 추천 방식이 다릅니다.

"페이지마다, 행마다, 아이템마다 모두 다르게 추천해야 하니, 자연스럽게 수많은 특화 모델들이 생겨났습니다."

이렇게 다양한 요구로 인해, 각각의 추천 상황에 맞춘 별도의 모델이 독립적으로 개발되어 왔습니다. 이 과정에서 중복된 기능 개발과 유사한 피처(특징) 엔지니어링이 반복되어, 관리와 확장이 점점 어려워졌습니다.

"같은 사용자 행동 데이터를 바탕으로 수많은 파생 피처가 만들어졌고, 각 모델마다 조금씩 다르게 쓰이면서 유지보수가 매우 어려워졌죠."

문제의식과 새로운 접근

넷플릭스는 이런 상황이 확장성(scalability) 측면에서 한계에 부딪혔다고 판단했습니다. 콘텐츠와 비즈니스 요구가 계속 늘어나는데, 매번 새로운 모델을 만드는 것은 비효율적이기 때문입니다.

"이렇게 계속 새로운 모델을 만들다 보면, 혁신의 속도도 느려지고, 재사용도 어렵습니다."

그래서 넷플릭스는 "사용자 표현(Representation)을 한 곳에서 통합적으로 학습할 수 없을까?"라는 질문을 던졌고, 그 해답으로 트랜스포머(Transformer) 기반의 '기반 모델(Foundation Model)'을 도입하기로 결정합니다.

핵심 가설
1. 대규모 반지도학습(Semi-supervised learning)과 트랜스포머 구조를 활용하면, 추천의 개인화 품질이 크게 향상될 것이다.
2. 이 기반 모델을 모든 추천 시스템에 통합하면, 전체 시스템의 혁신 속도와 효율성이 크게 높아질 것이다.

데이터와 학습: LLM에서 얻은 교훈

기반 모델을 구축하는 과정에서, 넷플릭스는 대형 언어모델(LLM) 개발 경험에서 많은 영감을 얻었습니다.

데이터 전처리와 토크나이징(Tokenization)
- LLM처럼, 토크나이징 방식이 모델 품질에 큰 영향을 미친다는 점을 강조합니다.
- 하지만 언어 토큰과 달리, 넷플릭스의 토큰은 '사용자 행동 이벤트'로, 하나의 이벤트에 여러 속성이 담겨 있습니다.
- 토크나이징의 세분화 정도와 맥락 창(window) 크기의 균형을 맞추는 것이 중요합니다.

"토크나이징에서 내리는 결정이 모델의 모든 층에 영향을 미치고, 결국 품질로 드러납니다."

모델 구조
- 이벤트 표현 → 임베딩 → 트랜스포머 → 목적 함수의 계층 구조로 설계됩니다.
- 이벤트 표현에는 언제, 어디서, 무엇을 했는지 등 다양한 정보가 포함됩니다.
- ID 임베딩만으로는 새로운 콘텐츠(코스타 문제)를 다루기 어렵기 때문에, 의미적(semantic) 정보도 함께 학습합니다.

"ID 임베딩만으로는 훈련 때 본 적 없는 타이틀을 처리할 수 없으니, 의미적 정보가 꼭 필요합니다."

목적 함수(로스)
- LLM보다 훨씬 풍부한 다중 목표를 가질 수 있습니다.
- 예를 들어, 다음에 볼 콘텐츠 예측, 행동 유형, 메타데이터, 시청 시간, 디바이스 등 다양한 목표를 동시에 학습합니다.
- 멀티태스크 학습, 멀티헤드, 계층적 예측 등 다양한 방식으로 활용할 수 있습니다.

스케일업과 주요 학습

넷플릭스는 수천만 프로필에서 10억 파라미터 규모까지 모델을 확장하며, 스케일업이 실제로 추천 품질을 계속 향상시킨다는 것을 확인했습니다.

"스케일업을 할수록 성능이 계속 좋아졌고, 아직도 더 확장할 여지가 있습니다."

LLM에서 차용한 주요 기법
1. 멀티 토큰 예측: 단기 행동 예측이 아니라, 장기 만족도와 행동을 예측하도록 모델을 훈련합니다.
  
  "멀티 토큰 예측을 도입하니, 장기적인 사용자 만족도와 행동 예측이 훨씬 좋아졌습니다."
2. 다층 표현(Multi-layer representation): 여러 층의 출력을 활용해 더 안정적이고 풍부한 사용자 표현을 만듭니다.
3. 긴 맥락 창(Long context window) 처리: 점점 더 긴 시퀀스를 효율적으로 학습할 수 있도록 다양한 전략을 적용합니다.

실제 적용과 서비스 구조 변화

기반 모델 도입 전에는, 각 추천 상황마다 별도의 데이터, 피처, 모델이 독립적으로 존재했습니다. 하지만 이제는 데이터와 표현(특히 사용자/콘텐츠 임베딩)을 통합하고, 각 애플리케이션 모델은 이 기반 모델 위에 얇은 계층만 추가하면 됩니다.

기반 모델 활용 방식
1. 서브그래프로 통합: 기존 모델의 일부를 기반 모델로 대체
2. 임베딩 추출 및 공유: 사용자/콘텐츠 임베딩을 중앙 저장소에 저장, 다양한 팀이 직접 활용 가능
3. 파인튜닝/디스틸레이션: 특정 애플리케이션에 맞게 추가 학습 또는 경량화

"이제는 새로운 애플리케이션도 기반 모델을 바로 파인튜닝해서 빠르게 첫 경험을 제공할 수 있습니다."

성과
- 다양한 애플리케이션에서 A/B 테스트 승리와 인프라 통합 효과가 뚜렷하게 나타났습니다.
- 혁신 속도와 확장성, 재사용성이 크게 향상되었습니다.

앞으로의 방향과 질의응답

예수 펑은 앞으로의 발전 방향도 소개합니다.

이질적 콘텐츠를 위한 범용 표현(Universal representation)
생성적 추천(Generative retrieval): 단일 영상이 아니라, 다양한 비즈니스 규칙과 다양성을 반영한 컬렉션 추천
프롬프트 튜닝(Prompt tuning): LLM처럼 소프트 토큰을 활용해 빠른 적응

"프롬프트 튜닝을 통해, 인퍼런스 시점에 소프트 토큰만 바꿔서 모델의 행동을 다르게 유도할 수 있습니다."

질의응답에서는 다음과 같은 내용이 오갔습니다.

추천 외의 활용 가능성: 넷플릭스는 추천을 넘어, 다양한 엔터티와 사용자 취향을 포괄적으로 파악하는 방향으로 확장 중임을 밝혔습니다.
그래프 모델과 강화학습: 지식 그래프 기반 임베딩과, 희소한 보상을 활용한 강화학습도 적극적으로 연구 및 활용 중입니다.

"그래프 모델은 콘텐츠 생태계 전체를 아우르는 데 쓰이고, 강화학습은 희소한 사용자 행동 보상을 활용해 컬렉션 추천 등에 적용합니다."
임베딩의 활용과 속도: 임베딩은 다양한 다운스트림 모델에서 직접 활용되고, 속도 역시 중요하게 고려되고 있습니다.
콘텐츠 임베딩의 세분화: 아직은 영상의 프레임 단위까지 임베딩을 활용하지는 않지만, 앞으로 그 방향으로 발전할 계획임을 언급했습니다.

마무리

예수 펑은 발표를 다음과 같이 정리합니다.

"기반 모델 도입은 넷플릭스 추천 시스템의 확장성과 혁신 속도를 크게 높였습니다. 앞으로도 더욱 다양한 콘텐츠와 사용자 경험을 위해 계속 발전해 나가겠습니다."

핵심 키워드:

기반 모델(Foundation Model)
트랜스포머(Transformer)
개인화(Personalization)
스케일업(Scale-up)
임베딩(Embedding)
멀티태스크 학습(Multitask Learning)
프롬프트 튜닝(Prompt Tuning)
그래프 모델(Graph Model)
강화학습(Reinforcement Learning)
혁신 속도(Innovation Velocity)

🎬 넷플릭스는 이제 하나의 강력한 모델로, 더 똑똑하고 빠르게, 그리고 더 다양하게 우리에게 맞는 콘텐츠를 추천할 수 있게 되었습니다!