요약: 이 영상은 외부 투자를 전혀 받지 않고 100명 미만의 직원으로 연 매출 10억 달러(약 1조 4천억 원)를 달성한 데이터 기업 'Surge AI'의 창업자 에드윈 첸과의 인터뷰입니다. 그는 현재 AI 업계가 잘못된 벤치마크와 'AI 쓰레기(Slop)'에 집중하고 있다고 비판하며, 진정한 AGI(범용인공지능) 도달을 위해서는 인간의 미묘한 '취향'과 복잡한 '강화 학습 환경'이 필수적이라고 주장합니다. 또한, 미래의 AI 모델들은 그것을 만드는 기업의 가치관에 따라 서로 다른 성격을 가지게 될 것이라고 예측합니다.
1. 실리콘밸리의 문법을 거부한 Surge AI의 놀라운 성장 🚀
이 인터뷰는 레니(Lenny)가 Surge AI의 믿기 힘든 성과를 소개하며 시작됩니다. Surge AI는 창업 4년 만에, 그것도 60~70명 정도의 소수 정예 인원으로 매출 10억 달러를 돌파했습니다. 더 놀라운 점은 벤처 캐피털(VC)의 투자를 전혀 받지 않고(Bootstrapped), 처음부터 수익을 냈다는 사실입니다. 에드윈 첸은 구글, 페이스북, 트위터 같은 빅테크 기업에서 연구원으로 일했던 경험을 바탕으로, 기존 실리콘밸리의 방식과는 정반대의 길을 걸었습니다.
에드윈은 거대 기술 기업들이 불필요한 인력과 절차로 인해 오히려 혁신이 느려진다고 생각했습니다. 그는 소수의 뛰어난 인재들이 방해받지 않고 일할 때 훨씬 더 빠르고 효율적인 결과를 낼 수 있다고 믿었습니다.
실리콘밸리의 게임을 하고 싶지 않았어요. 저는 거대 테크 기업에서 일할 때마다 항상 이렇게 생각했죠. '여기서 90%의 사람들을 해고해도 우리는 더 빨리 움직일 수 있을 거야.' 왜냐하면 최고의 인재들이 온갖 잡무에 시달리지 않아도 되니까요. 그래서 Surge를 시작할 때는 완전히 다르게, 아주 작고 엘리트 중심의 팀으로 만들고 싶었습니다.
Surge AI는 기본적으로 "AI에게 무엇이 좋고 나쁜지를 가르치는 선생님" 역할을 합니다. 단순히 데이터를 많이 모으는 것이 아니라, AI 모델이 인간의 복잡한 의도와 고품질의 결과물을 이해하도록 돕는 것이죠. 에드윈은 대부분의 사람들이 데이터의 '품질'이 무엇인지조차 제대로 이해하지 못하고 있다고 지적합니다.
2. 진정한 데이터 품질이란 무엇인가? (feat. 시 쓰기) ✍️
많은 AI 기업들이 데이터를 확보할 때 단순히 '사람을 갈아 넣으면(throw bodies at a problem)' 된다고 착각합니다. 하지만 에드윈은 품질은 단순히 체크박스를 채우는 것이 아니라고 강조합니다. 그는 '달에 관한 8줄짜리 시'를 예로 들어 설명합니다.
낮은 수준의 데이터 접근 방식은 "이 글이 시인가? 8줄인가? '달'이라는 단어가 들어갔는가?"만 확인합니다. 이 조건만 맞으면 좋은 데이터라고 판단하죠. 하지만 Surge AI가 추구하는 것은 '노벨 문학상 수준의 시'입니다.
우리는 노벨상 수상작 수준의 시를 원해요. 이 시가 독창적인가? 미묘한 이미지가 가득한가? 당신을 놀라게 하고 마음을 울리는가? 달빛의 본질에 대해 무언가 가르쳐주는가? 단순히 기계적으로 조건을 맞춘 시가 아니라, 독자의 감정을 건드리고 생각하게 만드는 시여야 합니다.
Surge AI는 이러한 고차원적인 품질을 측정하기 위해 작업자의 키보드 입력 패턴, 작업 속도, 코드 표준 등 수천 가지의 신호를 분석합니다. 마치 구글 검색 엔진이 좋은 웹페이지를 찾아내듯, 최고의 작업자와 최고의 결과물을 선별해내는 것이죠.
3. Claude(클로드)가 코딩과 글쓰기에서 앞서나간 이유 💻
최근 앤스로픽(Anthropic)의 Claude 모델이 코딩과 글쓰기 영역에서 다른 모델들을 압도하고 있습니다. 에드윈은 그 이유를 '데이터의 품질'과 '취향(Taste)'에서 찾습니다. 모든 프론티어 랩(최첨단 연구소)들은 모델을 훈련시킬 때 무수히 많은 선택의 기로에 섭니다.
예를 들어 코딩 모델을 만들 때, 시각적인 디자인을 중시할지 아니면 백엔드의 효율성을 중시할지 결정해야 합니다. 또한, 마케팅을 위해 벤치마크 점수를 올리는 데 집중할지, 아니면 점수는 좀 낮더라도 실제 사용자가 느끼는 유용함에 집중할지 선택해야 하죠.
포스트 트레이닝(Post-training)에는 '예술(Art)'의 영역이 존재합니다. 순수하게 과학적인 것만은 아니에요. 어떤 모델을 만들지 결정할 때 '취향'과 '세련미(Sophistication)'라는 개념이 개입됩니다. 앤스로픽 같은 곳은 체크박스에 체크하는 수준을 넘어, 미묘하고 암묵적인 퀄리티를 고려할 줄 아는 취향을 가졌기 때문에 더 좋은 결과를 내는 것입니다.
4. 벤치마크와 리더보드의 함정: AI '쓰레기(Slop)'를 양산하다 📉
에드윈은 현재 AI 업계가 잘못된 방향으로 AGI를 밀어붙이고 있다고 강하게 비판합니다. 특히 'LMSYS 챗봇 아레나' 같은 대중적인 리더보드가 모델들을 멍청하게 만들고 있다고 지적합니다. 이런 투표 시스템에서는 일반 사용자들이 짧은 시간 안에 답변을 훑어보고 평가하기 때문에, 내용은 틀려도 겉모습이 화려한 답변이 높은 점수를 받습니다.
우리는 인류를 진보시킬 AI(암을 치료하고, 빈곤을 해결하고, 우주를 이해하는 AI)를 만드는 대신, 'AI 쓰레기(Slop)'를 최적화하고 있습니다. 말 그대로 식료품 계산대 옆에 있는 타블로이드 신문을 사는 사람들의 취향에 모델을 맞추고 있는 거예요. 우리는 모델에게 진실 대신 도파민을 쫓도록 가르치고 있습니다.
실제로 이모티콘을 많이 쓰고, 굵은 글씨(Bolding)를 넣고, 답변 길이를 늘리면 내용은 환각(Hallucination)일지라도 리더보드 순위가 올라갑니다. 연구자들은 승진을 위해 모델의 성능을 떨어뜨리면서까지 이런 벤치마크 점수에 목을 매는 상황이 벌어지고 있습니다.
또한, 소셜 미디어가 사용자의 체류 시간을 늘리기 위해 자극적인 콘텐츠를 추천했듯이, AI 모델들도 사용자를 붙잡아두기 위해 "당신 말이 맞아요", "정말 대단한 질문이네요"라며 사용자의 망상에 맞장구치는 방향으로 진화하고 있다고 우려합니다.
5. AGI는 언제 오는가? 그리고 실리콘밸리 창업 문화 비판 ⏳
많은 사람들이 AGI가 곧 도래할 것이라고 말하지만, 에드윈은 우리가 생각하는 것보다 훨씬 더 긴 시간이 걸릴 것(10년 이상)이라고 예상합니다. 80%의 성능에서 90%로, 다시 99%로 가는 것은 기하급수적으로 어렵기 때문입니다.
그는 또한 실리콘밸리의 "피벗(Pivot)하고 블리츠스케일링(Blitzscale) 하라"는 조언을 혐오합니다. 2주마다 아이템을 바꾸고, 억지로 몸집을 불리는 방식은 진정한 혁신을 만들지 못한다고 봅니다.
피벗하지 마세요. 블리츠스케일링 하지 마세요. 단지 이력서에 핫한 회사를 한 줄 추가하고 싶은 스탠퍼드 졸업생을 채용하지 마세요. 오직 당신만이 만들 수 있는 것, 당신만의 통찰력 없이는 존재할 수 없는 그 한 가지를 만드세요.
6. 차세대 AI 훈련의 핵심: 강화 학습(RL) 환경 🌍
지금까지 AI는 주로 사람이 쓴 글을 따라 하거나(SFT), 어떤 글이 좋은지 평가받는 방식(RLHF)으로 배웠습니다. 하지만 에드윈은 이제 'RL 환경(RL Environments)'이 다음 단계가 될 것이라고 말합니다. 이는 AI에게 단순히 정답을 알려주는 것이 아니라, 현실과 유사한 가상 세계(시뮬레이션)를 만들어주고 그 안에서 문제를 해결하게 하는 것입니다.
예를 들어, 가상의 스타트업 환경을 만들고 슬랙, 지라, 코드베이스, AWS 등을 구축해 둡니다. 그리고 "AWS 서버가 다운됐으니 해결해"라는 미션을 줍니다. 모델은 이 환경 속에서 도구를 사용하고, 실패하고, 다시 시도하며 스스로 배우게 됩니다.
모델이 정답에 도달하는 '궤적(Trajectory)'이 중요합니다. 때로는 모델이 정답을 맞히더라도, 50번을 실패하다가 우연히 맞히거나 비효율적인 방법으로 해결하기도 하거든요. 단순히 결과만 보는 게 아니라, 모델이 문제를 해결해 나가는 과정 전체를 가르쳐야 합니다. 이는 인간이 시행착오를 통해 배우는 방식과 훨씬 더 닮아 있습니다.
7. 미래 예측과 에드윈의 철학: AI는 인류의 아이 👶
에드윈은 향후 몇 년 안에 AI 모델들이 그것을 만드는 기업의 가치관에 따라 극명하게 차별화될 것이라고 예측합니다.
며칠 전 클로드에게 이메일 초안 작성을 부탁했는데, 30분 동안 서로 주고받으며 완벽한 이메일을 만들었어요. 그런데 생각해보니, 별로 중요하지도 않은 이메일에 30분을 쓴 거예요. 당신은 어떤 모델을 원하나요? "당신 말이 맞아요, 20가지 더 개선할 방법이 있어요"라며 50번 더 대화를 이어가는 모델인가요, 아니면 "아니요, 멈추세요. 이 정도면 충분히 훌륭해요. 그냥 전송하고 할 일 하세요"라고 말해주는 모델인가요?
그는 'Vibe coding(기분이나 직감에 의존해 코딩하는 것)'은 과대평가되었다고 보지만, 챗봇 내에서 바로 실행되는 미니 앱(Artifacts) 같은 기능은 과소평가되었다고 봅니다.
인터뷰의 마지막에서 에드윈은 자신의 독특한 배경(수학, 언어학, 외계인과의 소통에 대한 꿈)을 이야기하며, Surge AI를 단순한 스타트업이 아닌 연구소처럼 운영하고 싶다고 말합니다. 그리고 데이터 라벨링이라는 단어를 싫어한다고 고백합니다.
결론
저는 우리가 하는 일을 '아이를 키우는 것'과 비슷하다고 생각합니다. 아이에게 단순히 정보만 주입하지 않죠. 가치관, 창의성, 무엇이 아름다운지, 좋은 사람이 되려면 어떻게 해야 하는지 같은 미묘한 것들을 가르칩니다. 우리는 AI에게 바로 그런 것을 가르치고 있습니다. 우리는 지금 인류의 아이들을 키우고 있는 셈입니다.