1. 실험의 시작: AI로 바이럴을 예측할 수 있을까? 🤔

Michael Taylor는 "AI가 온라인에서 무엇이 바이럴이 될지 예측할 수 있을까?"라는 질문에서 출발해, 실제 해커뉴스(Hacker News) 유저들의 댓글을 바탕으로 만든 1,903개의 AI 페르소나에게 인기 헤드라인을 맞추게 하는 실험을 진행했어요.

"그들은 60%의 확률로 맞췄습니다—동전을 던지는 것보다 20% 더 나은 결과죠."

이 결과는 단순한 우연 이상의 의미가 있습니다. 실제로 마케팅 책임자들은 "AI가 인간과 70%만 일치해도 시장조사에 쓸 의향이 있다"고 말하거든요. 60%면 아직 완벽하진 않지만, 충분히 실용적인 수준에 근접한 셈이죠.

하지만, 이 실험은 AI가 왜 더 높은 정확도를 내기 어려운지도 보여줬어요.


2. 실험 과정: 해커뉴스 시뮬레이터 만들기 🧑‍💻

  • 1,147개의 헤드라인을 하루치로 모아, 그날의 인기글과 비인기글을 50:50으로 섞었습니다.
  • 1,903명의 AI 페르소나(실제 해커뉴스 유저의 댓글 기반)가 각 헤드라인을 보고 "업보트(추천)"할지 결정하게 했어요.
  • 이 과정은 Jupyter Notebook에서 자동화해 대규모로 처리했습니다.

"만약 AI가 바이럴 헤드라인을 신뢰성 있게 예측할 수 있다면, 잭팟을 터뜨릴 때까지 계속 테스트할 수 있을 거예요. AI를 쓰면 전통적인 시장조사보다 훨씬 빠르고 저렴하죠."

하지만, 마케터들은 "기계가 진짜 포커스 그룹을 대체할 수 있냐"는 의심이 많았고, 그래서 직접 증명해보려 한 거죠.


3. 결과: 완벽하진 않지만 쓸모 있다! 📊

  • 정확도: 60%
    • AI 페르소나가 어떤 헤드라인이 인기글이 될지 60%의 확률로 맞췄어요.
    • 동전 던지기(50%)보다 확실히 낫지만, 완벽하진 않죠.

"내가 틀린 헤드라인을 자세히 들여다보니, 이게 왜 어려운 문제인지 알게 됐어요."

예를 들어, "Gemma 3: Google의 새로운 멀티모달 모델"이라는 헤드라인은 AI가 대박을 예측했지만 실제로는 4업보트밖에 못 받았어요. 반면, "Gemma 3 기술 보고서 [pdf]"는 같은 주제임에도 1,324업보트를 받았죠.

"정말로 두 번째 헤드라인이 첫 번째보다 1,000배나 더 좋은 걸까요?"

또, "TSA가 남자의 바지 속에 숨겨진 살아있는 거북이를 발견했다"는 뉴스도 AI는 인기를 예측했지만 실제로는 완전히 실패했어요.


4. 왜 AI가 틀렸을까? 바이럴의 본질은 '사회적 역학' 🌀

실패 사례를 분석해보니, 바이럴의 핵심은 '운'과 '사회적 모멘텀'에 있다는 걸 알게 됐어요.

  • AI 페르소나는 다른 사람의 반응을 모르는 상태에서 헤드라인을 평가했지만,
  • 실제 해커뉴스 유저는 업보트 수, 페이지 위치, 그날의 트렌드 등 맥락에 영향을 받아요.

"한 번의 초기 업보트가 모든 걸 바꿀 수 있습니다—동일한 콘텐츠가 평행우주에서 완전히 다른 길을 걷게 되죠."

프린스턴 대학 연구도 이걸 잘 보여줍니다. 14,341명에게 같은 노래 리스트를 주고, 일부 그룹은 남의 선택을 볼 수 있게 했더니, 같은 노래가 어떤 그룹에선 대박, 어떤 그룹에선 완전 실패였어요. 성공의 70~80%는 초반의 ''에 달려 있었죠.

"이 '부익부 빈익빈' 현상이 바로 시뮬레이터가 어려움을 겪는 이유입니다."

즉, 개인 취향을 완벽히 모델링해도, 사회적 물리학(초기 반응, 경쟁, 확산 효과 등)을 놓치면 바이럴을 완벽히 예측할 수 없어요.


5. 실용적 인사이트: 60%의 정확도, 어떻게 활용할까? 💡

핵심은 '완벽'이 아니라 '의사결정에 도움이 되느냐'입니다.

  • 60% 정확도는 "한 번에 대박을 맞추겠다"는 데는 부족하지만, 여러 아이디어 중 '명백한 실패작'을 걸러내고, 유망한 방향을 찾는 데는 충분히 쓸모가 있어요.

"AI 시장조사 기업들은 90% 이상의 정확도를 주장하지만, 그건 '사람들이 말하는 것'을 예측한 거지, 실제로 바이럴이 되는 걸 예측한 게 아니에요."

실험의 더 큰 교훈:
AI가 개인의 취향을 완벽히 모델링해도, 바이럴 성공은 여전히 예측 불가능한 사회적 역학에 달려 있습니다.

실전 팁

  • 예측이 아니라 반복(iteration)에 활용하세요.
    • 한 번에 대박을 노리기보다, AI로 10가지 버전을 테스트해 '명백한 실패작'을 걸러내고, 유망한 후보를 실제로 실험해보세요.
  • 여러 번 시뮬레이션을 돌리세요.
    • 8번 중 1번만 성공하면 운일 수 있지만, 6번 이상 성공하면 진짜 가능성이 있는 거예요.
  • 절대값보다 '상대적 순위'에 집중하세요.
    • AI는 '명확히 좋은 것'과 '명확히 나쁜 것'을 구분하는 데 더 강합니다.

6. 직접 해보기: 해커뉴스 유저 복제 프롬프트 🧑‍🔬

ChatGPT나 Claude에서 해커뉴스 유저를 복제해보세요!

  1. 해커뉴스 유저의 공개 댓글 페이지에서 댓글을 복사합니다.
  2. 아래 프롬프트를 붙여넣으세요:

"당신은 해커뉴스 유저의 댓글 목록을 바탕으로 해당 유저를 대표하는 상세한 페르소나를 만듭니다. 이 유저가 실제로 했던 댓글만 참고해, 그와 동일한 답변을 할 법한 고유한 페르소나를 만들어주세요. 배경, 경험, 관심사, 이력 등을 최대한 풍부하게 추론해 한 문단으로 설명하세요. 인구통계 정보도 현실적이고 신뢰성 있게 만들어주세요. 해커뉴스 유저 id는 {user_id}입니다. 이 유저의 댓글만 참고해 프로필을 작성하세요."

이렇게 하면 AI가 그 유저의 성향을 반영한 가상의 인물을 만들어줍니다.
이 페르소나에게 여러분의 아이디어를 물어보면, 실제 시장조사 대신 쓸 수 있는 가상 포커스 그룹이 되는 거죠!

"AI가 이름이나 세부사항을 지어내기도 하지만, 실제로는 댓글에서 추론한 합리적인 범위 내에서 만들어집니다."


7. 결론: AI 시장조사의 미래와 한계 🚦

  • AI는 대기업만 누리던 시장조사 인사이트를 누구나 쓸 수 있게 해줍니다.
  • 하지만, 사회적 역학의 혼돈 때문에 "완벽한 예측"은 불가능에 가깝습니다.
  • AI는 마케팅의 '크리스탈볼'이 아니라, 더 똑똑한 실험과 반복을 위한 도구로 활용하는 게 현명해요.

"AI는 아직 여러분의 마케팅 콘텐츠를 위한 마법의 구슬이 아닙니다—적어도, 아직은요."


핵심 키워드 요약

  • AI 시장조사
  • 해커뉴스 시뮬레이터
  • AI 페르소나
  • 60% 정확도
  • 사회적 역학
  • 초기 업보트/운
  • 반복(iteration)
  • 상대적 순위
  • 프롬프트 엔지니어링
  • 가상 포커스 그룹

Michael Taylor

  • Rally(가상 오디언스 시뮬레이터) CEO
  • 『Prompt Engineering for Generative AI』 공동 저자

이 요약이 AI를 활용한 시장조사의 실제 가능성과 한계를 이해하는 데 도움이 되었길 바랍니다!
궁금한 점이 있으면 언제든 질문해 주세요 😊

I Cloned 2,000 Hacker News Users to Predict Viral Posts

함께 읽으면 좋은 글

HarvestAI한국어

OpenAI 공동 창립자 그렉 브록먼: 인간의 주의력이 새로운 병목 현상이 되는 이유

이 영상에서 OpenAI의 공동 창립자이자 사장인 그렉 브록먼은 AI 기술의 현재와 미래에 대해 심도 있는 통찰을 공유합니다. 그는 AI의 발전을 주도하는 컴퓨팅 자원의 중요성부터 AGI(범용 인공지능)에 대한 접근성, 그리고 인간의 주의력이 새로운 핵심 자원이 될 수 있다는 점까지 다양한...

2026년 5월 2일더 읽기
Harvest엔지니어링 리더십 · AI한국어

12,000줄의 코드를 200줄의 마크다운 스킬로 대체하기

데이비드 고메즈는 커서(Cursor)에서 12,000줄이 넘던 워크트리(WorkTree) 기능을 200줄 정도의 스킬, 명령어, 서브 에이전트 기반의 경량화된 레이어로 대체한 경험을 공유합니다. 그는 이 과정을 통해 병렬 코딩 워크플로우를 어떻게 마크다운으로 재구현했는지, 그리고 이 과정에...

2026년 5월 2일더 읽기
HarvestAI한국어

LLM이 위임된 작업을 수행할 때 문서가 손상되는 현상

이 연구는 대규모 언어 모델(LLM)이 문서 편집과 같은 위임된 작업을 수행할 때 문서 내용을 얼마나 잘 보존하는지 평가합니다. DELEGATE-52라는 새로운 벤치마크를 사용하여 52개 전문 분야에 걸쳐 19개 LLM을 테스트한 결과, 현재 모델들이 장기적인 작업 흐름에서 문서 내용을 심...

2026년 5월 2일더 읽기