시뮬레이션으로 인간 사회를 이해하다: Simile의 준성 박

준성 박(Joon Sung Park) Simile CEO는 인간의 행동과 사회를 시뮬레이션하는 AI 연구소를 설립하여 오늘날의 AI 모델이 객관적인 문제 해결에는 뛰어나지만, 실제 인간처럼 행동하는 데는 한계가 있다고 강조합니다. 그는 Simile이 다양한 인간의 가치, 선호, 취향을 반영하는 '지능의 GPU'를 만드는 것을 목표로 하며, 이는 은행 파산, 기후 협력, 민주주의 붕괴 신호 등 사회의 복잡한 현상을 모델링하는 데 기여할 수 있다고 설명합니다. 이 영상에서는 Simile이 개발한 시뮬레이션 기술과 그 잠재력에 대해 깊이 있게 탐구합니다.

1. 과학 소설에서 영감을 받은 시뮬레이션의 가능성 ✨

준성 박은 과학 소설을 통해 깊은 영감을 받았다고 이야기합니다. 기술적으로 성숙한 사회를 다루는 과학 소설에는 언제나 범용 인공지능(AGI)과 사회 시뮬레이션이라는 두 가지 핵심 요소가 등장한다는 것이 그의 설명입니다. 그는 오늘날 이 시뮬레이션을 구현할 기회가 왔다고 확신합니다.

"저는 과학 소설에서 많은 영감을 얻는 사람입니다. 기술적으로 충분히 성숙한 사회를 다루는 과학 소설을 읽으면 항상 두 가지 기둥을 볼 수 있습니다. 어떤 형태의 AGI와 사회를 이끄는 데 도움이 되는 어떤 형태의 시뮬레이션이 있습니다. 오늘날 저는 시뮬레이션을 구축하는 첫 발을 내디딜 기회가 있다고 봅니다. 5년 전만 해도 이런 말을 하지 않았을 테지만, 이 연구에 깊이 파고들면서 수년 동안 쌓아온 확신입니다."

그는 심지어 5년 전만 해도 이런 확신은 없었지만, 연구를 심화하면서 이러한 가능성을 발견했다고 덧붙였습니다.

2. 스탠퍼드의 '스몰빌(Smallville)' 프로젝트와 생성형 에이전트 🏠

준성 박은 2023년 4월, 스탠퍼드에서 진행했던 스몰빌 프로젝트에 대해 설명합니다. 이 프로젝트는 대규모 언어 모델(LLM)이 웹과 소셜 미디어의 학습 데이터를 통해 많은 인간 행동을 담고 있다는 관찰에서 시작되었습니다. 이 모델들을 올바른 각도에서 활용하면 인간의 미세한 행동들을 이끌어낼 수 있다는 것이 핵심 아이디어였습니다.

"스몰빌은 스탠퍼드에서 진행했던 프로젝트인데, 대규모 언어 모델이 이제 웹과 소셜 미디어 등 학습 데이터에 내재된 많은 인간 행동을 인코딩할 수 있다는 관찰에서 시작했습니다. 올바른 각도에서 탐구하면 이러한 모델에서 많은 미세 행동을 실제로 얻을 수 있습니다. 예를 들어, 매우 구체적인 상황 묘사가 주어졌을 때, X라는 사람은 무엇을 할까요? 그러면 실제로 매우 흥미로운 행동을 생성합니다."

연구팀은 이 점이 복잡한 에이전트 행동을 만드는 데 필요한 요소라고 판단했고, 이를 최대한 밀어붙이면 어떤 사회가 형성될지 실험해보기로 했습니다. 그렇게 탄생한 것이 바로 스몰빌이었습니다. 스몰빌은 생성형 AI 모델과 기억, 계획, 성찰 기능을 갖춘 생성형 에이전트를 결합하여 에이전트들이 작은 마을에서 살아가는 경험을 시뮬레이션한 것이었습니다. 25명의 에이전트가 각자의 페르소나를 가지고 아침에 일어나 일상생활을 하고, 직장에 가고, 관계를 맺으며 파티를 여는 등 실제 사람과 같은 자율적인 현상을 만들어냈다고 합니다.

3. 스몰빌에서 발견한 놀라운 결과: 발렌타인 데이 파티 🎈

스몰빌 실험에서 가장 놀라웠던 점 중 하나는 발렌타인 데이 전날을 배경으로 한 시뮬레이션이었습니다. 시뮬레이션 속 에이전트 중 한 명인 카페 주인 '이사벨라'는 발렌타인 데이 파티를 열 계획을 세우고, 파티 재료를 모으고, 손님들에게 파티에 와달라고 초대합니다. 그리고 발렌타인 데이 당일, 모든 에이전트들이 카페에 모여 파티를 즐기는 자발적인 파티 현상이 실제로 나타났다고 합니다.

"가장 놀랐던 것 중 하나는, 시뮬레이션 자체가 발렌타인 데이 전날을 배경으로 합니다. 그러면 이 에이전트들이, 한 에이전트는 카페를 운영하는 이사벨라라는 이름의 카페 주인인데, 그녀가 생각합니다. '발렌타인 데이 파티를 열어서 친구들과 손님들을 초대하면 좋겠네.' 그래서 발렌타인 데이 전날 그녀가 돌아다니면서 파티 재료를 모으고, 손님들에게 '우리 파티할 거예요, 꼭 오세요'라고 말하는 것을 볼 수 있습니다. 그리고 발렌타인 데이 당일에는 모든 에이전트들이 카페에 와서 파티가 열리는 몰입형 파티를 실제로 볼 수 있습니다."

초대를 받지 못했거나 잊어버린 에이전트도 있었지만, '클라우스'라는 에이전트는 자신의 짝사랑을 파티에 데려오는 등 예상치 못한 상호작용도 발생했다고 합니다. 이러한 현상은 시뮬레이션이 단순히 정해진 규칙에 따르는 것이 아니라, 실제 사회와 유사한 복잡하고 예측 불가능한 상호작용을 만들어낼 수 있음을 보여주었습니다.

4. 스몰빌 개발의 배경: 기술 중심의 발견 💡

준성 박은 스몰빌을 개발하게 된 계기가 인간 심리나 사회 행동 연구에서 시작된 것이 아니라, 기술적인 발견에서 비롯되었다고 설명합니다. 그의 팀은 오랫동안 시뮬레이션의 가능성에 주목해왔고, 2020년 GPT-3 출시를 앞두고 대규모 언어 모델이 가진 놀라운 일반화 능력에 주목했습니다.

"저희 팀은 시뮬레이션에 대해 열광했고, 시뮬레이션의 비전을 일찍이 보았습니다. 2020년에 GPT-3가 막 출시될 예정이었고, 저희는 첫 데모를 보게 되었습니다. 제 첫 해에 저는 스탠퍼드의 많은 연구자들과 함께 '기초 모델의 기회와 위험'이라는 논문을 썼습니다. 당시 제가 정말 집중했던 부분은 '이것은 과거에 본 적 없는 새로운 종류의 모델이다. 이런 모델이 과거에는 없었던 방식으로 매우 일반화될 수 있다'는 것이었습니다."

그는 당시 동료 연구자들이 모델이 분류나 간단한 생성 작업을 수행하는 것에 놀라워했지만, 자신에게 더 흥미로웠던 점은 이러한 모델이 인간 행동을 인코딩할 수 있다는 가능성이었다고 말합니다.

5. 소셜 시뮬라크라(Social Similacra): 사회적 플랫폼 테스트의 혁신 👥

준성 박은 자신의 연구 전통이 소셜 컴퓨팅(Social Computing) 분야에 뿌리를 두고 있다고 언급합니다. 소셜 컴퓨팅은 사회적 상호작용과 협업을 가능하게 하는 기술 플랫폼을 구축하는 데 중점을 둡니다. 사회적 플랫폼을 구축할 때 가장 어려운 과제는 UI/UX 테스트가 아니라, 수많은 사람들이 모여 긍정적 또는 부정적 자율 현상을 어떻게 만들어내는지, 그리고 이러한 규모에 어떻게 대비해야 하는지를 예측하는 것이었습니다. 이전에는 현장 테스트(Field Test), 즉 프로토타입을 출시하고 결과를 지켜보는 방식밖에 없었으며, 이는 막대한 비용과 잠재적인 부정적 영향을 수반했습니다.

"가장 어려운 과제 중 하나는 시스템의 UI/UX를 테스트하는 것이 아니라, 수십 명, 수백만 명, 그리고 장기적으로 수십억 명의 사람들이 어떻게 함께 모여 좋고 나쁜 자율적 현상을 만들어내고, 어떻게 규모에 맞게 설계할 수 있는가 하는 것입니다. 지금까지는 이를 테스트할 수 있는 도구가 없었습니다. 오늘날 우리가 테스트하는 유일한 방법은 기본적으로 현장 테스트를 하는 것입니다. 프로토타입을 출시하고 무슨 일이 일어나는지 지켜보는 것이죠. 그리고 때로는 실제 비용이 발생합니다. 물론 인적 자원과 시간 면에서 높은 비용이 들지만, 동시에 좋지 않은 디자인을 가지고 있다면, 소셜 미디어에서 부정적인 감정을 전파할 가능성이 더 높은 피드가 있다고 상상해보세요. 그러면 분명히 우리는 그런 것을 피하고 싶지만, 이것은 이제 현장에서 테스트됩니다."

2022년, 준성 박의 팀은 소셜 시뮬라크라(Social Similacra)라는 선구적인 논문을 발표했습니다. 이 연구는 서브레딧 시뮬레이션을 통해 사람들이 어떻게 행동할지 예측하는 데 LLM을 활용했습니다. 서브레딧의 목표와 운영 전략을 정의하고, 수천 명의 페르소나(당시에는 '에이전트'라고 부르지 않았음)를 채워 넣자, 에이전트들이 피츠버그 관광 명소에 대해 토론하고, 함께 여행 계획을 세우는 등 자발적인 협력 현상을 보여주었습니다. 이는 시뮬레이션의 잠재력에 대한 확신을 심어주었습니다.

6. 모델의 진화와 Simile의 차별점: 인간다움을 추구하는 '지능의 GPU' 🧠

초기의 GPT-3 기반 모델은 "매우 불안정(very janky)"했으며, 지시를 잘 따르지 않아 프롬프팅 트릭이 필요했습니다. 하지만 그 안에서 인간 행동이 인코딩될 수 있다는 잠재력은 분명했습니다. 이후 모델들은 명령 튜닝(instruction tuning) 기능이 추가되면서 기억에 대해 추론할 수 있는 더 복잡한 에이전트를 만들 수 있게 되었고, 현재의 모델은 이러한 애플리케이션을 구축할 수 있는 수준에 도달했습니다.

준성 박은 오늘날 많은 대규모 언어 모델 기업들이 "초지능 기계"를 만드는 것을 목표로 하며, 이는 객관적인 정답이 있는 기술적 문제를 해결하는 데 뛰어난 합리적인(rational) 모델이라고 지적합니다. 그는 이러한 모델을 "지능의 CPU(CPU of intelligence)"에 비유합니다.

"오늘날 많은 대규모 언어 모델 기업들, 즉 OpenAI, Anthropic, 그리고 새로 형성되는 많은 AI 연구소들을 보면, 그들이 만드는 모델은 '초지능 기계를 만들자'는 것과 비슷한 목표를 가지고 있다고 생각합니다. 이 기계들은 합리적이어야 하고, 객관적인 답이 있는 기술적 문제 해결에 정말 뛰어나야 합니다."

그러나 그는 이러한 모델이 "진정한 인간 사회"를 시뮬레이션하는 데는 한계가 있다고 말합니다. 인간은 비합리적이고, 주관적인 가치, 선호, 취향을 가지고 있기 때문입니다. 현재의 모델 패러다임으로는 인간 행동을 예측하고 시뮬레이션하는 능력이 정체 상태(plateaued)에 이르렀다고 진단합니다.

여기서 Simile의 역할이 부각됩니다. Simile은 사람들의 다양성을 모델링하는 데 더 적합한 다음 세대의 모델, 즉 "지능의 GPU(GPU of intelligence)"를 개발하고자 합니다. Simile의 목표는 초인간적인 모델이 아니라, "가능한 한 인간적인(as human as possible)" 모델을 만드는 것입니다. 이 모델은 다양한 인구 집단의 실제 관점을 나타낼 수 있어야 합니다.

"저희 Simile의 모델은 지능의 GPU를 개발하는 것에 훨씬 가깝습니다. 여기서 아이디어는 저희가 초인간적인 모델을 필요로 하지 않는다는 것입니다. 사실 저희는 가능한 한 인간적인 모델을 원하지만, 이러한 모델이 개별 하위 단위에서 다양한 인구 집단의 실제 관점을 나타낼 수 있도록 하고 싶습니다."

이러한 간극이 바로 Simile이 자체 모델을 개발하는 이유입니다. 동시에 Simile은 연구를 조정하는 수단으로 개척 모델(frontier models), 즉 최신 모델의 이점을 활용하여 연구 계획을 수립하는 데 사용하기도 합니다.

7. 스몰빌에서 Simile이라는 회사로: 실제 문제 해결을 향한 여정 🚀

준성 박은 스몰빌 프로젝트 이후, 연구와 기업의 역할이 매우 다르다는 점을 깨달았다고 말합니다. 연구는 다양한 가설을 탐구하는 데는 뛰어나지만, 그 연구 결과를 실제 세상에 적용하는 데는 한계가 있습니다. 반면 기업은 특정 분야에 대한 확신을 가지고 자원과 인력을 집중하여 하나의 비전을 향해 나아가는 "깊이 있는 탐색을 위한 기계(machine for depth for search)"라고 설명합니다.

"연구와 기업은 기능이 매우 다릅니다. 연구는 폭넓은 연구를 하고 싶을 때 놀라운 도구입니다. 똑똑한 사람들로 둘러싸인 연구실에서 각 연구자가 작은 논문의 한 부분을 담당하며 탐구하고, 그중 일부는 놀라운 연구 성과로 이어지지만, 우리는 보통 우리의 작업을 마무리하는 것으로 알려져 있지 않습니다. 우리는 보통 그 연구의 영향을 현실 세계로 가져오는 사람이 아닙니다."

"기업은 깊이 있는 탐색을 위한 기계입니다. 특정 분야에 대한 확신이 있고, 오르고 싶은 언덕을 찾으면, 이것은 주저 없이 자원과 놀라운 사람들을 모아 단일한 비전을 추구하게 해주는 도구입니다."

생성형 에이전트 논문 발표 후 약 6개월 뒤, Simile 팀은 회사 설립의 확신을 얻게 됩니다. 처음에는 사회 과학자들로부터 실험 플랫폼으로 사용하고 싶다는 문의가 많았고, 이후 포춘 500대 기업의 경영진들이 스탠퍼드를 방문하여 스몰빌 데모를 보고 시장 조사 질문을 시뮬레이션으로 해결할 수 있는지 문의하기 시작했습니다. 이러한 문의는 연구가 실제 세상에 영향을 미칠 수 있는 명확한 기회를 보여주었고, 이것이 바로 회사를 설립하게 된 계기가 됩니다.

이후 Simile은 시뮬레이션의 정확성을 검증하기 위해 노력했습니다. 그들은 미국 인구 1,000명에 대한 시뮬레이션을 생성하여, Simile의 아키텍처와 모델이 사람들이 자신의 행동을 예측하는 것만큼 85%의 정확도로 사람들의 행동을 예측할 수 있음을 입증했습니다. 이 결과에 확신을 얻은 Simile은 사용자들에게 중요한 의사결정을 위한 시뮬레이션 플랫폼을 제공하기로 결정했습니다.

8. Simile의 고객 참여 방식: CVS 사례를 중심으로 🛒

Simile의 고객은 주로 여론 조사 및 패널 회사와 협력하는 데 익숙합니다. Simile과의 초기 단계는 이와 유사하게, 고객이 특정 인구 집단에 대해 더 잘 이해하고 싶다는 요청을 하는 것으로 시작됩니다.

Simile은 이러한 요청을 받으면 Gallup과 같은 패널 회사와 협력하여 실제 사람들에게 접근하고 데이터를 수집합니다. 이때 Simile은 특정 사람에 대해 충분하고 일반화 가능한 데이터를 얻기 위해 15분이라는 제한된 시간 안에 어떤 마법 같은 질문을 할 수 있는지에 집중합니다. 이 데이터는 나중에 에이전트를 생성하는 데 사용됩니다.

"초기 단계는 Simile과 매우 유사하게 보입니다. 저희 고객들은 저희에게 와서 XYZ 인구에 대해 더 잘 이해하고 싶다고 말합니다. 그러면 Simile은 저희가 벤더들과의 파트너십을 통해, 예를 들어 현재 저희는 여론 조사 및 패널 회사인 Gallup과 전략적 파트너십을 맺고 있는데, 저희는 벤더들과 협력하여 실제 사람들에게 연락합니다. 그래서 이러한 시뮬레이션은 실제 데이터에 기반을 둡니다."

수집된 데이터는 시뮬레이션 에이전트를 만드는 데 사용되며, 이 에이전트들은 원래의 질문 범위를 넘어선 수많은 질문에 답할 수 있도록 설계됩니다. 이 에이전트들은 Simile의 SaaS(Software as a Service) 제품인 플랫폼에 로드되어 고객이 원하는 특정 그룹에 대한 질문을 할 수 있게 됩니다.

CVS는 Simile의 파트너 중 하나로, Simile의 시뮬레이션 기술을 통해 개념 테스트(concept testing)를 수행하고 있습니다. CVS의 한 고위 VP는 Simile의 연구 논문을 읽고, 현재 현장 테스트의 한계와 인간 사회의 물리적 제약 때문에 많은 질문에 답할 수 없다고 판단하여 Simile과 협력하게 되었습니다. 그는 Simile의 시뮬레이션을 통해 시장 전체를 시뮬레이션하고, 의사 결정의 간접적인 영향(second order impact)까지 파악할 수 있기를 기대했습니다.

9. 자율주행차 시뮬레이션과의 유사점: 실제 데이터 기반의 일반화 🚗

준성 박은 Simile의 시뮬레이션 개념이 자율주행차 시뮬레이션과 유사하다고 설명합니다. 자율주행차는 실제 물리 법칙에 기반한 모델을 생성하되, 훈련 데이터 이상의 다양한 위치와 날씨 조건에 일반화될 수 있어야 합니다. Simile 역시 실제 사람들에게서 본질적인 데이터를 수집하여, 이 데이터를 모델에 인코딩함으로써 일반화 가능한 예측을 가능하게 합니다.

10. 실제 데이터 수집의 중요성: '말과 행동의 간극(Say-Do Gap)' 🗣️

인터뷰어는 대규모 언어 모델이 세상의 모든 것을 잘 나타낼 수 있기 때문에, 실제 데이터를 수집할 필요가 있는지 의문을 제기합니다. 마치 "34세의 해안 대도시 거주 여성이라고 Claude에게 말하면, 충실한 답변을 얻을 수 있지 않느냐"는 질문이었습니다.

하지만 준성 박은 "말과 행동의 간극(Say-Do Gap)"이 존재한다고 강조합니다. 대규모 언어 모델은 주로 온라인에서 사람들이 말한 데이터에 기반하여 훈련되기 때문에, 실제 사람들이 "하는 행동"과는 차이가 있을 수 있다는 것입니다. Simile은 이 간극을 메우는 것을 목표로 합니다.

"여기서 중요한 질문 중 하나는 '말과 행동의 간극(say-do gap)'에 대한 질문입니다. 사람들이 말하는 것과 실제로 하는 행동 사이에는 간극이 있고, 그 간극은 실재합니다. 그리고 많은 대규모 언어 모델은 편집된 데이터로 훈련됩니다. 기본적으로 사람들이 온라인에서 말한 것들이 학습 데이터의 많은 양을 차지합니다. 그래서 Simile의 시뮬레이션 플랫폼이 하는 일 중 하나는 그 간극을 메우는 것입니다."

Simile이 수집하는 데이터는 주로 행동 데이터(behavioral data)입니다. 여기에는 "당신의 인생 이야기를 들려주세요"와 같은 질문도 포함됩니다. 이런 질문을 통해 개인의 "롱테일 정보(longtail information)", 즉 성장 배경, 어려운 결정 등 태도와 행동 사이의 번역 계층(translational layer)을 구축하는 데 도움이 되는 데이터를 얻을 수 있다고 합니다. 물론 특정 주제에 대한 사람들의 견해를 파악하기 위한 설문 조사도 효율적인 방법으로 활용됩니다.

11. 시뮬레이션의 평가: 수렴과 발산, 그리고 신뢰도 📈

시뮬레이션 모델의 예측력을 어떻게 평가하는지에 대한 질문에, 준성 박은 이론적 한계가 존재한다고 인정합니다. 인간 행동에는 본질적인 무작위성이 있기 때문에, 같은 질문에도 사람이 매번 똑같이 답하지 않을 수 있다는 것입니다.

Simile은 개별 인구 집단 수준에서 반응 분포를 측정합니다. 특히 정량적인 질문의 경우 총 변동 거리(Total Variation Distance, TVD)를 사용하여 실제 분포와 시뮬레이션 분포가 얼마나 가까운지 측정합니다. Simile은 TVD가 0.15 미만일 경우 의사 결정에 충분히 신뢰할 수 있는 수준으로 간주합니다. 이 지표는 RCT(무작위 대조군 연구)와 같은 핵심 사용 사례에도 적용됩니다.

그러나 다중 에이전트 시뮬레이션이나 간접적인 영향(downstream implications)을 평가할 때는 문제가 더 복잡해집니다. 에이전트 간에 오류가 누적될 수 있기 때문입니다. 준성 박은 시뮬레이션을 크게 수렴(converge)하는 시뮬레이션과 발산(diverge)하는 시뮬레이션 두 가지 범주로 나눕니다.

수렴하는 시뮬레이션: 약간의 오류가 있더라도 결과가 특정 방향으로 수렴하는 경우입니다. 예를 들어, 사람들의 네트워크를 시뮬레이션하면 항상 허브(hub)가 형성되는 척도 없는 네트워크(scale-free network) 현상이 나타납니다. 이는 구글의 페이지 랭크(PageRank) 알고리즘의 핵심 관찰이기도 합니다. 인간 행동을 특정 정확도로 복제하는 한 이러한 수렴은 항상 발생합니다.
발산하는 시뮬레이션: 약간의 초기 조건 변화에도 결과가 크게 달라지는 경우입니다. "1차 세계 대전은 피할 수 없었는가?"와 같은 질문이 대표적입니다. 선거 시뮬레이션의 경우, 모든 결정이 하류에 영향을 미치므로 매번 동일한 결과가 나오지 않을 수 있습니다.

발산하는 시뮬레이션의 경우, Simile은 "신뢰도(confidence)"를 중심으로 평가합니다. 예를 들어, 시뮬레이션을 100번 실행했을 때 결과가 X로 나오는 횟수를 계산하여 부트스트랩(bootstrap)과 유사하게 신뢰도를 추정합니다. 시뮬레이션의 진정한 강점은 결과가 발산할 때 다양한 가능한 결과(diversity of possible outcomes)를 보여줌으로써, 사람들이 그 원인과 메커니즘을 이해하고 미래에 대비할 수 있도록 돕는 데 있다고 준성 박은 강조합니다.

"시뮬레이션의 힘의 상당 부분은 발산할 때 가능한 결과의 다양성을 보여줌으로써, 사람들이 그 결과에 도달하게 된 원인이나 메커니즘을 이해하고 미래에 대비할 수 있도록 하는 것입니다."

그는 시뮬레이션이 아직 초기 단계이며, 수렴/발산 여부에 대한 수학적이고 견고한 프레임워크를 구축하는 것이 현재 연구의 중요한 과제라고 덧붙였습니다. 마치 통계학에서 유의 수준(P값) 0.05가 과학적 증거의 기준이 되었듯이, 시뮬레이션 분야에도 그에 상응하는 기준과 표준을 정립하는 것이 Simile의 목표 중 하나입니다.

12. 시뮬레이션의 미래: 거시경제, 사회 문제 해결, 그리고 '인류 사회의 CERN' 🌐

현재 Simile의 고객은 주로 포춘 500대 기업이지만, 준성 박은 시뮬레이션이 기업을 넘어선 거대한 사회적 문제를 해결할 잠재력이 있다고 믿습니다. 그는 과거 노벨 경제학상 수상자인 토마스 셸링(Thomas Schelling)의 에이전트 기반 모델 연구를 예로 들며, 셸링이 단순한 모델로 분리 현상(segregation)과 같은 거시적 인간 행동의 인과 메커니즘을 밝혀냈음을 언급합니다. Simile은 이제 개인의 풍부한 특성을 복제하는 실제 에이전트를 통해 이러한 종류의 시뮬레이션을 더욱 발전시킬 수 있다고 주장합니다.

준성 박은 시뮬레이션으로 해결할 수 있는 비상업적 문제들을 나열합니다.

거시 경제학: 은행 인출 사태(bank run)는 언제 발생하는가?
기후 변화: 여러 국가의 집단 행동 문제(collective action problem)를 시뮬레이션할 수 있는가?
민주주의: 민주주의 붕괴의 초기 신호는 무엇인가?
통화 시스템: 통화 시스템의 기원은 무엇인가?

"거시 경제학의 맥락에서 경제학자들로부터 실제로 받은 질문은 '은행 인출 사태는 언제 일어나는가?' 또는 기후 변화와 같은 질문이었습니다. 기후 문제를 해결하는 데 핵심적인 장애물 중 하나는 여러 국가의 집단 행동 문제입니다. 이것을 실제로 시뮬레이션할 수 있을까요? 아니면 붕괴 직전의 민주주의의 신호는 무엇일까요? 통화 시스템의 기원 스토리를 이해할 수 있을까요? 이것이 이 분야의 북극성이 되어야 한다고 생각하는 시뮬레이션 종류입니다."

그는 이러한 시뮬레이션이 수억 달러가 들고 수개월이 걸릴 수 있지만, 일단 실행되면 우리 사회의 근본적인 질문들을 해결할 수 있을 것이라고 예측합니다.

"오늘날에는 분명히 그렇지 않지만, 한 번 실행하는 데 1억 달러가 들고 몇 달이 걸릴 수 있지만, 실행되면 우리 사회의 근본적인 질문 중 하나를 해결하는 시뮬레이션을 상상해보세요. 그것이 이 분야에 대한 정말 흥미로운 가능성이라고 생각합니다."

준성 박은 정책 입안자들이 어떤 정책 변화가 미칠 영향을 시뮬레이션하여 장기적인 결과까지 예측할 수 있게 된다면, 정치의 방식 또한 변화할 것이라고 강조합니다.

13. 미래에 대한 기대: 인류 사회의 CERN 🌍🔬

준성 박은 과학 소설에서 영감을 받아 시뮬레이션이 인류 사회의 안내자 역할을 할 것이라는 믿음을 다시 한번 강조하며 미래에 대한 기대감을 표현합니다. 그는 현재 사용자들에게 분명한 활용 사례를 제공하고 있지만, 앞으로 더 많은 혁신이 일어나 '인류 사회의 CERN'과 같은 시뮬레이터가 구축될 것이라고 말합니다.

"저는 과학 소설에서 많은 영감을 얻는 사람입니다. 기술적으로 충분히 성숙한 사회를 다루는 과학 소설을 읽으면 항상 두 가지 기둥을 볼 수 있습니다. 어떤 형태의 AGI와 사회를 이끄는 데 도움이 되는 어떤 형태의 시뮬레이션이 있습니다."

"오늘날 저는 시뮬레이션을 구축하는 첫 발을 내디딜 기회가 있다고 봅니다. 5년 전만 해도 이런 말을 하지 않았을 테지만, 이 연구에 깊이 파고들면서 수년 동안 쌓아온 확신입니다. 그리고 흥미로운 점은 오늘날 사용자들에게 봉사할 수 있는 분명한 사용 사례가 있다는 것입니다. 하지만 앞으로 인류 사회의 CERN과 같은 시뮬레이터를 실제로 구축할 수 있는 많은 혁신이 아직 남아 있다고 생각합니다."

그는 공동 창업자인 퍼시가 "가장 위대한 과학적 혁신은 종종 놀라운 측정(amazing measurement)에서 시작된다"고 말한 것을 인용하며, 허블 망원경이 우주 이해의 궤도를 바꾼 것처럼, 시뮬레이션이 인간 사회에 그 역할을 할 수 있다고 믿습니다.

준성 박은 자연 과학에 집중된 연구와는 달리, 시뮬레이션이 인류와 사회 과학에 대한 이해를 어떻게 확장하고, 궁극적으로 사회를 더 나은 곳으로 만들 수 있는지에 대해 큰 기대를 걸고 있습니다. 인터뷰어 역시 시뮬레이션이 경제학을 넘어 인간 행동과 관련된 모든 사회 과학 분야를 "해결(solved)"할 수 있는 잠재력을 가지고 있다고 공감하며 대화가 마무리됩니다.

마무리

이 영상은 Simile의 준성 박 CEO와 Sequoia Capital의 소냐 황(Sonya Huang)의 대담을 통해, 시뮬레이션 기술이 단순한 연구를 넘어 실제 사회의 복잡한 문제를 해결하는 데 어떻게 기여할 수 있는지 깊이 있게 탐구합니다. 스탠퍼드의 '스몰빌' 프로젝트를 시작으로, Simile이 추구하는 '인간다움'을 모델링하는 AI의 비전, 그리고 기업 및 사회적 난제 해결을 위한 잠재력까지 폭넓게 다루고 있습니다. 시뮬레이션이 인간 사회의 숨겨진 메커니즘을 밝히고 미래를 예측하는 강력한 도구가 될 수 있다는 준성 박의 확신은, AI 시대에 우리가 마주할 수 있는 흥미로운 가능성을 보여줍니다.

1. 과학 소설에서 영감을 받은 시뮬레이션의 가능성 ✨

"저는 과학 소설에서 많은 영감을 얻는 사람입니다. 기술적으로 충분히 성숙한 사회를 다루는 과학 소설을 읽으면 항상 두 가지 기둥을 볼 수 있습니다. 어떤 형태의 AGI와 사회를 이끄는 데 도움이 되는 어떤 형태의 시뮬레이션이 있습니다. 오늘날 저는 시뮬레이션을 구축하는 첫 발을 내디딜 기회가 있다고 봅니다. 5년 전만 해도 이런 말을 하지 않았을 테지만, 이 연구에 깊이 파고들면서 수년 동안 쌓아온 확신입니다."

그는 심지어 5년 전만 해도 이런 확신은 없었지만, 연구를 심화하면서 이러한 가능성을 발견했다고 덧붙였습니다.

2. 스탠퍼드의 '스몰빌(Smallville)' 프로젝트와 생성형 에이전트 🏠

"스몰빌은 스탠퍼드에서 진행했던 프로젝트인데, 대규모 언어 모델이 이제 웹과 소셜 미디어 등 학습 데이터에 내재된 많은 인간 행동을 인코딩할 수 있다는 관찰에서 시작했습니다. 올바른 각도에서 탐구하면 이러한 모델에서 많은 미세 행동을 실제로 얻을 수 있습니다. 예를 들어, 매우 구체적인 상황 묘사가 주어졌을 때, X라는 사람은 무엇을 할까요? 그러면 실제로 매우 흥미로운 행동을 생성합니다."

3. 스몰빌에서 발견한 놀라운 결과: 발렌타인 데이 파티 🎈

"가장 놀랐던 것 중 하나는, 시뮬레이션 자체가 발렌타인 데이 전날을 배경으로 합니다. 그러면 이 에이전트들이, 한 에이전트는 카페를 운영하는 이사벨라라는 이름의 카페 주인인데, 그녀가 생각합니다. '발렌타인 데이 파티를 열어서 친구들과 손님들을 초대하면 좋겠네.' 그래서 발렌타인 데이 전날 그녀가 돌아다니면서 파티 재료를 모으고, 손님들에게 '우리 파티할 거예요, 꼭 오세요'라고 말하는 것을 볼 수 있습니다. 그리고 발렌타인 데이 당일에는 모든 에이전트들이 카페에 와서 파티가 열리는 몰입형 파티를 실제로 볼 수 있습니다."

4. 스몰빌 개발의 배경: 기술 중심의 발견 💡

"저희 팀은 시뮬레이션에 대해 열광했고, 시뮬레이션의 비전을 일찍이 보았습니다. 2020년에 GPT-3가 막 출시될 예정이었고, 저희는 첫 데모를 보게 되었습니다. 제 첫 해에 저는 스탠퍼드의 많은 연구자들과 함께 '기초 모델의 기회와 위험'이라는 논문을 썼습니다. 당시 제가 정말 집중했던 부분은 '이것은 과거에 본 적 없는 새로운 종류의 모델이다. 이런 모델이 과거에는 없었던 방식으로 매우 일반화될 수 있다'는 것이었습니다."

5. 소셜 시뮬라크라(Social Similacra): 사회적 플랫폼 테스트의 혁신 👥

"가장 어려운 과제 중 하나는 시스템의 UI/UX를 테스트하는 것이 아니라, 수십 명, 수백만 명, 그리고 장기적으로 수십억 명의 사람들이 어떻게 함께 모여 좋고 나쁜 자율적 현상을 만들어내고, 어떻게 규모에 맞게 설계할 수 있는가 하는 것입니다. 지금까지는 이를 테스트할 수 있는 도구가 없었습니다. 오늘날 우리가 테스트하는 유일한 방법은 기본적으로 현장 테스트를 하는 것입니다. 프로토타입을 출시하고 무슨 일이 일어나는지 지켜보는 것이죠. 그리고 때로는 실제 비용이 발생합니다. 물론 인적 자원과 시간 면에서 높은 비용이 들지만, 동시에 좋지 않은 디자인을 가지고 있다면, 소셜 미디어에서 부정적인 감정을 전파할 가능성이 더 높은 피드가 있다고 상상해보세요. 그러면 분명히 우리는 그런 것을 피하고 싶지만, 이것은 이제 현장에서 테스트됩니다."

6. 모델의 진화와 Simile의 차별점: 인간다움을 추구하는 '지능의 GPU' 🧠

"오늘날 많은 대규모 언어 모델 기업들, 즉 OpenAI, Anthropic, 그리고 새로 형성되는 많은 AI 연구소들을 보면, 그들이 만드는 모델은 '초지능 기계를 만들자'는 것과 비슷한 목표를 가지고 있다고 생각합니다. 이 기계들은 합리적이어야 하고, 객관적인 답이 있는 기술적 문제 해결에 정말 뛰어나야 합니다."

"저희 Simile의 모델은 지능의 GPU를 개발하는 것에 훨씬 가깝습니다. 여기서 아이디어는 저희가 초인간적인 모델을 필요로 하지 않는다는 것입니다. 사실 저희는 가능한 한 인간적인 모델을 원하지만, 이러한 모델이 개별 하위 단위에서 다양한 인구 집단의 실제 관점을 나타낼 수 있도록 하고 싶습니다."

7. 스몰빌에서 Simile이라는 회사로: 실제 문제 해결을 향한 여정 🚀

"연구와 기업은 기능이 매우 다릅니다. 연구는 폭넓은 연구를 하고 싶을 때 놀라운 도구입니다. 똑똑한 사람들로 둘러싸인 연구실에서 각 연구자가 작은 논문의 한 부분을 담당하며 탐구하고, 그중 일부는 놀라운 연구 성과로 이어지지만, 우리는 보통 우리의 작업을 마무리하는 것으로 알려져 있지 않습니다. 우리는 보통 그 연구의 영향을 현실 세계로 가져오는 사람이 아닙니다."

"기업은 깊이 있는 탐색을 위한 기계입니다. 특정 분야에 대한 확신이 있고, 오르고 싶은 언덕을 찾으면, 이것은 주저 없이 자원과 놀라운 사람들을 모아 단일한 비전을 추구하게 해주는 도구입니다."

8. Simile의 고객 참여 방식: CVS 사례를 중심으로 🛒

"초기 단계는 Simile과 매우 유사하게 보입니다. 저희 고객들은 저희에게 와서 XYZ 인구에 대해 더 잘 이해하고 싶다고 말합니다. 그러면 Simile은 저희가 벤더들과의 파트너십을 통해, 예를 들어 현재 저희는 여론 조사 및 패널 회사인 Gallup과 전략적 파트너십을 맺고 있는데, 저희는 벤더들과 협력하여 실제 사람들에게 연락합니다. 그래서 이러한 시뮬레이션은 실제 데이터에 기반을 둡니다."

9. 자율주행차 시뮬레이션과의 유사점: 실제 데이터 기반의 일반화 🚗

10. 실제 데이터 수집의 중요성: '말과 행동의 간극(Say-Do Gap)' 🗣️

"여기서 중요한 질문 중 하나는 '말과 행동의 간극(say-do gap)'에 대한 질문입니다. 사람들이 말하는 것과 실제로 하는 행동 사이에는 간극이 있고, 그 간극은 실재합니다. 그리고 많은 대규모 언어 모델은 편집된 데이터로 훈련됩니다. 기본적으로 사람들이 온라인에서 말한 것들이 학습 데이터의 많은 양을 차지합니다. 그래서 Simile의 시뮬레이션 플랫폼이 하는 일 중 하나는 그 간극을 메우는 것입니다."

11. 시뮬레이션의 평가: 수렴과 발산, 그리고 신뢰도 📈

수렴하는 시뮬레이션: 약간의 오류가 있더라도 결과가 특정 방향으로 수렴하는 경우입니다. 예를 들어, 사람들의 네트워크를 시뮬레이션하면 항상 허브(hub)가 형성되는 척도 없는 네트워크(scale-free network) 현상이 나타납니다. 이는 구글의 페이지 랭크(PageRank) 알고리즘의 핵심 관찰이기도 합니다. 인간 행동을 특정 정확도로 복제하는 한 이러한 수렴은 항상 발생합니다.
발산하는 시뮬레이션: 약간의 초기 조건 변화에도 결과가 크게 달라지는 경우입니다. "1차 세계 대전은 피할 수 없었는가?"와 같은 질문이 대표적입니다. 선거 시뮬레이션의 경우, 모든 결정이 하류에 영향을 미치므로 매번 동일한 결과가 나오지 않을 수 있습니다.

"시뮬레이션의 힘의 상당 부분은 발산할 때 가능한 결과의 다양성을 보여줌으로써, 사람들이 그 결과에 도달하게 된 원인이나 메커니즘을 이해하고 미래에 대비할 수 있도록 하는 것입니다."

12. 시뮬레이션의 미래: 거시경제, 사회 문제 해결, 그리고 '인류 사회의 CERN' 🌐

준성 박은 시뮬레이션으로 해결할 수 있는 비상업적 문제들을 나열합니다.

거시 경제학: 은행 인출 사태(bank run)는 언제 발생하는가?
기후 변화: 여러 국가의 집단 행동 문제(collective action problem)를 시뮬레이션할 수 있는가?
민주주의: 민주주의 붕괴의 초기 신호는 무엇인가?
통화 시스템: 통화 시스템의 기원은 무엇인가?

"거시 경제학의 맥락에서 경제학자들로부터 실제로 받은 질문은 '은행 인출 사태는 언제 일어나는가?' 또는 기후 변화와 같은 질문이었습니다. 기후 문제를 해결하는 데 핵심적인 장애물 중 하나는 여러 국가의 집단 행동 문제입니다. 이것을 실제로 시뮬레이션할 수 있을까요? 아니면 붕괴 직전의 민주주의의 신호는 무엇일까요? 통화 시스템의 기원 스토리를 이해할 수 있을까요? 이것이 이 분야의 북극성이 되어야 한다고 생각하는 시뮬레이션 종류입니다."

"오늘날에는 분명히 그렇지 않지만, 한 번 실행하는 데 1억 달러가 들고 몇 달이 걸릴 수 있지만, 실행되면 우리 사회의 근본적인 질문 중 하나를 해결하는 시뮬레이션을 상상해보세요. 그것이 이 분야에 대한 정말 흥미로운 가능성이라고 생각합니다."

13. 미래에 대한 기대: 인류 사회의 CERN 🌍🔬

"저는 과학 소설에서 많은 영감을 얻는 사람입니다. 기술적으로 충분히 성숙한 사회를 다루는 과학 소설을 읽으면 항상 두 가지 기둥을 볼 수 있습니다. 어떤 형태의 AGI와 사회를 이끄는 데 도움이 되는 어떤 형태의 시뮬레이션이 있습니다."

"오늘날 저는 시뮬레이션을 구축하는 첫 발을 내디딜 기회가 있다고 봅니다. 5년 전만 해도 이런 말을 하지 않았을 테지만, 이 연구에 깊이 파고들면서 수년 동안 쌓아온 확신입니다. 그리고 흥미로운 점은 오늘날 사용자들에게 봉사할 수 있는 분명한 사용 사례가 있다는 것입니다. 하지만 앞으로 인류 사회의 CERN과 같은 시뮬레이터를 실제로 구축할 수 있는 많은 혁신이 아직 남아 있다고 생각합니다."

1. 과학 소설에서 영감을 받은 시뮬레이션의 가능성 ✨

2. 스탠퍼드의 '스몰빌(Smallville)' 프로젝트와 생성형 에이전트 🏠

3. 스몰빌에서 발견한 놀라운 결과: 발렌타인 데이 파티 🎈

4. 스몰빌 개발의 배경: 기술 중심의 발견 💡

5. 소셜 시뮬라크라(Social Similacra): 사회적 플랫폼 테스트의 혁신 👥

6. 모델의 진화와 Simile의 차별점: 인간다움을 추구하는 '지능의 GPU' 🧠

7. 스몰빌에서 Simile이라는 회사로: 실제 문제 해결을 향한 여정 🚀

8. Simile의 고객 참여 방식: CVS 사례를 중심으로 🛒

9. 자율주행차 시뮬레이션과의 유사점: 실제 데이터 기반의 일반화 🚗

10. 실제 데이터 수집의 중요성: '말과 행동의 간극(Say-Do Gap)' 🗣️

11. 시뮬레이션의 평가: 수렴과 발산, 그리고 신뢰도 📈

12. 시뮬레이션의 미래: 거시경제, 사회 문제 해결, 그리고 '인류 사회의 CERN' 🌐

13. 미래에 대한 기대: 인류 사회의 CERN 🌍🔬

마무리

함께 읽으면 좋은 글

지능 소유의 부상: 작업 특화 오픈소스 모델이 프런티어 모델을 이기는 법

AI 스타트업 Tano의 소프트웨어 엔지니어링 팀 하루 들여다보기

모든 회사에는 이제 ‘두뇌’가 필요하다: AI 네이티브 기업의 새로운 운영 방식

읽은 것

1. 과학 소설에서 영감을 받은 시뮬레이션의 가능성 ✨

2. 스탠퍼드의 '스몰빌(Smallville)' 프로젝트와 생성형 에이전트 🏠

3. 스몰빌에서 발견한 놀라운 결과: 발렌타인 데이 파티 🎈

4. 스몰빌 개발의 배경: 기술 중심의 발견 💡

5. 소셜 시뮬라크라(Social Similacra): 사회적 플랫폼 테스트의 혁신 👥

6. 모델의 진화와 Simile의 차별점: 인간다움을 추구하는 '지능의 GPU' 🧠

7. 스몰빌에서 Simile이라는 회사로: 실제 문제 해결을 향한 여정 🚀

8. Simile의 고객 참여 방식: CVS 사례를 중심으로 🛒

9. 자율주행차 시뮬레이션과의 유사점: 실제 데이터 기반의 일반화 🚗

10. 실제 데이터 수집의 중요성: '말과 행동의 간극(Say-Do Gap)' 🗣️

11. 시뮬레이션의 평가: 수렴과 발산, 그리고 신뢰도 📈

12. 시뮬레이션의 미래: 거시경제, 사회 문제 해결, 그리고 '인류 사회의 CERN' 🌐

13. 미래에 대한 기대: 인류 사회의 CERN 🌍🔬

마무리

함께 읽으면 좋은 글

지능 소유의 부상: 작업 특화 오픈소스 모델이 프런티어 모델을 이기는 법

AI 스타트업 Tano의 소프트웨어 엔지니어링 팀 하루 들여다보기

모든 회사에는 이제 ‘두뇌’가 필요하다: AI 네이티브 기업의 새로운 운영 방식