AI 발전의 은밀한 원동력이 '데이터 품질'임을 강조하며, 모델 구조나 컴퓨트 확장보다 훨씬 중요한 것은 정교한 데이터 큐레이션이라는 점을 다룹니다. 아리 모코스의 개인적 경험을 바탕으로 데이터 연구의 깊이와 실질적 임팩트, 그리고 미래 AI 개발의 패러다임 변화를 친근하게 소개합니다. 핵심 메시지는 ⭐ "좋은 모델은 좋은 데이터를 먹고 자라난다" ⭐는 '쓴 교훈(Bitter Lesson)'에 있습니다.
1. Datology: 데이터 큐레이션이 바꿀 AI의 미래
Datology라는 회사의 미션은 데이터 큐레이션을 통해 모델을 더 빠르고, 더 잘, 그리고 더 작게 학습시키는 것입니다. 아리 모코스는 이렇게 말했어요.
"모델은 자신이 먹는 데이터로 만들어진다. 좋은 데이터를 보여주면 훌륭한 모델이 나오고, 나쁜 데이터를 보여주면 질 낮은 모델이 나옵니다."
그는 머신러닝에서 데이터가 저장소 안에 그냥 쌓여 있기만 한 채로 방치되는 경우가 얼마나 많은지 지적합니다. Datology는 데이터 필터링, 순서 정하기(커리큘럼), 합성 데이터 생성 등 데이터에 관한 모든 선택 과정을 자동화해서, 누구나 고품질 데이터로 모델을 훈련할 수 있게 돕는 것이 목표예요.
큐레이션을 자동화해야 하는 이유는 간단합니다. 트릴리언 단위의 토큰, 수십억 장의 이미지처럼 방대한 데이터를 다루려면 인간의 손만으로는 불가능하기 때문입니다.
2. 아리 모코스의 여정: 신경과학에서 데이터의 중요성을 깨치기까지
아리의 연구 경력은 신경과학에서 시작됐습니다. 쥐에게 숫자 세기를 가르치고, 그 과정에서 뇌의 수천 개 뉴런이 어떻게 활동하는지를 실험하며 데이터를 분석하다가 자연스럽게 머신러닝에 입문했죠. 그는 처음에는 딥러닝의 '귀납적 편향(inductive bias)' 설계, 즉 아키텍처를 어떻게 하면 더 똑똑하게 만들 수 있을까에 주목했다고 설명합니다.
하지만 2020년, 여러 논문에서 같은 결론을 마주하게 됩니다. 기존의 편향 설계보다 진짜 중요한 것은 데이터라는 사실이었죠.
"6년 동안 귀납적 편향에 집중해 연구했지만, 데이터가 결국 모든 것을 좌우한다는 쓴 교훈을 깨달았다. Bitter lesson, 정말 쓰라렸다."
그는 모델 아키텍처나 손이 많이 가는 이론적 접근보다, 데이터의 질을 높이는 것이 압도적으로 더 큰 지분을 차지한다고 고백합니다.
3. 데이터, 왜 역사적으로 저평가되었나?
아리에 따르면 AI 분야에서 데이터 연구는 성과 대비 투자(impact-to-investment) 비율이 가장 낮은 분야입니다.
"데이터는 임팩트에 비해 가장 저투자된 연구 영역이다. 그 격차는 놀라울 정도다."
이유는 여러 가지인데:
- 연구 커뮤니티에서는 데이터 처리를 '수고로운 허드렛일'이나 '배관공의 일'처럼 저평가해왔고,
- 많은 연구가 이미 고정된 데이터셋(예: ImageNet) 안에서 모델 구조나 학습법 향상에만 집중했기 때문이에요.
- 발전 초기에는 데이터가 귀해서 일일이 사람이 라벨링했기에, 데이터 품질 관리를 새삼스럽게 따질 일이 적었습니다.
그러나 2019년, 셀프-슈퍼바이즈 학습(self-supervised learning)의 등장으로 판이 바뀝니다.
"이제는 라벨 없이도 모델이 스스로 정답을 맞히게 만들 수 있어, 데이터가 희소했던 시대에서 데이터가 넘쳐나는 시대로 전환됐다."
이제는 데이터의 양도 어마어마하게 많아졌지만, 그만큼 중복, 저품질, 정보 순도 문제가 심각해졌고, 고품질 데이터 선별과 구조화의 중요성이 커졌습니다.
4. 왜 자동화된 데이터 큐레이션이 답인가?
데이터 큐레이션에서 사람이 일일이 평가하고 고르는 방법은 점점 한계가 드러납니다. 예를 들어, DCLM(Data Comp LM) 프로젝트 결과에선 이런 흥미로운 사실이 나왔어요.
"2년 동안 데이터만 본 NLP 전문가 30명이 자동필터의 결과를 예측하려 했지만, 우연과 다를 바 없을 만큼 맞추지 못했다."
이는 데이터의 가치는 "각 데이터포인트와 전체 데이터셋의 관계"에 달려 있어서, 인간이 한눈에 구별할 수 없다는 점을 보여줍니다. 인간은 개별 데이터의 품질은 볼 수 있지만, 1만 개의 중복된 햄릿 요약처럼 '적정 중복량' 판단은 힘듭니다.
아리는 이를 '코끼리와 강아지' 비유로 설명합니다:
- 코끼리는 종이 단순해서 적은 수의 데이터 포인트만 있어도 개념을 파악할 수 있지만,
- 개는 품종, 크기, 색, 질감 등 변수가 많아 훨씬 많은 예시가 필요합니다.
이렇게 개념별로 필요한 '양'과 '중복'이 다 다르기 때문에, 자동화된 시스템이 아니면 현실적으로 다룰 수 없다는 것이죠.
5. 합성 데이터와 큐레이션의 기술적 진화
Datology가 강조하는 데이터 큐레이션은 단순 '필터링'을 넘어선 개념입니다. 데이터의 분포를 재조정(업샘플링/다운샘플링), 데이터 순서 결정(커리큘럼), 배치 방식, 그리고 합성 데이터(예: 재서술/리프레이징)까지 아우릅니다.
합성 데이터에도 크게 두 종류가 있다고 설명해요:
- 신규 생성(Net-New): 모델이 새로 만들어내 가르치는 방식. 하지만 이 경우, 종종 '교사보다 뛰어난 학생'을 만들기 어렵고, 정보 왜곡·모델 붕괴 위험이 존재합니다.
- 재서술(Rephrasing): 기존 데이터를 다양한 스타일로 변환·정제. 이 방식은 기존의 정보가 유지되므로 오히려 원본보다 더 좋은 모델을 만들 수 있다는 장점이 있습니다.
그는 이렇게 강조합니다.
"텍스트북(교과서)만으로 충분하냐고? 아니죠. 진짜 중요한 건 다양성입니다. 품질 높은 토큰 반복이 아무리 좋아도, 다양한 데이터가 결국 모델 성능을 좌우합니다."
커리큘럼 케이스도 최신 연구로 다시 부각되고 있습니다.
"이제는 데이터가 부족해서가 아니라, 데이터가 넘치지만 모델이 다 못 먹는 '언더피팅' 시대가 됐다. 여기에 맞춘 정교한 데이터 순서(커리큘럼)는 학습 효율을 10배, 100배 높일 수 있는 게임 체인저다."
6. 데이터 큐레이션이 실제로 만든 변화: 더 작고 저렴한 모델
Datology가 실제로 달성한 변화 중 가장 놀라운 점은 동일 성능을 불과 10%의 데이터만으로 달성하거나, 절반 이하 사이즈의 모델로도 기존 성능을 뛰어넘는 사례입니다.
"덜 훈련해도 성능이 그대로고 심지어 더 좋아진다. 더 작고 빠르면서도 더 뛰어난 모델을 만드는 것이 가능하다!"
실제로 RC 재단과 협업을 통해, 23조 토큰에서 시작해 6.6조 토큰만 사용하고도 동급 경쟁 모델과 비슷하거나 더 나은 성과를 내기도 했죠.
이런 결과가 가능한 이유는:
- 데이터 품질이 한 단계 올라가면서 머신러닝의 '디미니싱 리턴(수익체감의 법칙)'을 깨고,
- 데이터가 곧 컴퓨트 투자 효율의 몇십 배에 해당하는 '멀티플라이어(곱셈기)' 역할을 하기 때문입니다.
7. 데이터와 모델 경량화: 프루닝(Pruning)과 데이터 기반 해법
많은 이들이 모델 파라미터 프루닝(필요 없는 가중치 제거)에 기대를 걸었지만, 아리는 이렇게 설명합니다.
"프루닝은 데이터셋, 데이터 분포에 너무 의존적이라 단방향 해법으로는 한계가 있다. 데이터로 모델을 작게 만드는 방법이 훨씬 더 궁극적이다."
다만 데이터 기반 모델 경량화는 모델 프루닝, 양자화 등 다른 방법과 상호보완적으로 결합 가능하다며, 미래는 수십억 매개변수('몇 B') 단위의 소형 특화 모델이 대세가 될 것이라 내다봅니다.
8. Datology의 비전과 AI 업계의 미래
Datology의 궁극적 목표는 '목적에 따라 데이터 가치를 정확히 평가하는 것'입니다. 이는 진정한 AI 혁신의 NP-완전 문제와도 다름없다고 말합니다.
"대부분의 조직이 수백만 달러 비용을 들여 모델 훈련을 준비하며, 데이터셋 설계는 두 주 뒤에나 고민한다. 그런데 정작 데이터가 제일 중요하다!"
아리 모코스는 데이터 큐레이션 분야가 이제 막 시작된 단계라고 강조합니다. 그는 이렇게 말하죠.
"아직 우리가 할 수 있는 일 중 10%도 못했다. 남아 있는 잠재력은 100배에 달한다. 지금은 정말 초기 단계다."
또한, 데이터 큐레이션을 잘 이해하고 '데이터를 뚫어지게 들여다보는' 타입의 연구자를 적극 채용하고 싶다고도 전합니다.
9. 메타, 슈퍼인텔리전스, 그리고 데이터의 미래 가치
메타(Meta)가 막대한 자원을 데이터에 투자하는 모습을 보며, 아리는 이렇게 정리합니다.
"메타와 같은 기업들이 데이터에 집중한다는 건, 산업 전체가 이제 데이터의 중요성을 깨닫고 있다는 신호다."
또한, AI 패러다임 자체가 '범용 거대모델'에서 점차 '목적 특화 소형 모델 & 고품질 데이터'로 전환될 것임을 전망합니다.
"결국 기업이 원하는 것은 자기 업무에 최적화된, 작고 효율적인 모델이니까요. 직접 데이터와 모델을 가진 기업이 승자가 될 것입니다."
결론
AI의 본질적 진보는 더 많은 파라미터나 하드웨어가 아니라, 더 나은 데이터로부터 비롯됩니다.
아리 모코스와 Datology는 데이터 품질이 AI 연구·산업 모두에 있어 핵심적인 숙제이며, 자동화된 큐레이션, 커리큘럼, 합성 데이터 등 정교한 접근법만이 미래 경쟁력을 좌우할 것이라 강조합니다.
"AI의 진짜 혁신은 데이터에서 시작된다. 모델은 좋은 데이터를 먹고 자라난다."
💡 이제는 '모델 중심'에서 '데이터 중심'으로, AI의 무게추가 이동하는 시대입니다! 💡