인간 행동 시뮬레이션을 위한 AI 에이전트: 스탠포드 글로벌 동문 웨비나

이 웨비나는 AI 에이전트 시뮬레이션이 인간 행동을 예측하고 의사 결정을 돕는 강력한 도구가 될 수 있음을 강조합니다. 특히 대규모 언어 모델(LLM)을 활용하여 실제 사람과 같은 행동을 하는 시뮬레이션 에이전트를 생성하는 방법과 그 활용 가능성에 대해 자세히 설명합니다. 이 기술은 조직 리더십, 시장 조사, 정책 수립, 심지어 개인의 소프트 스킬 훈련에 이르기까지 다양한 분야에 혁신적인 변화를 가져올 잠재력을 가지고 있습니다.

1. 불확실한 의사 결정의 도전

우리는 일상에서, 그리고 조직 운영에서 수많은 의사 결정을 내립니다. 하지만 이러한 결정은 종종 불완전한 정보에 기반할 때가 많다고 마이클은 지적합니다. 특히 사람들이 어떻게 반응할지에 대한 예측은 더욱 어렵죠. 예를 들어, 기업이 새로운 서비스를 출시할 때 고객 반응을 예측하거나, 리더가 조직 개편이나 새로운 관리 스타일을 도입할 때 직원들의 반응을 예측하는 것은 쉽지 않습니다.

"우리가 의사 결정을 내릴 때, 우리는 종종 사람들이 어떻게 반응할지에 대한 불완전한 정보에 기반하여 결정을 내립니다."

이러한 불완전한 정보는 잘못된 판단으로 이어지기 쉽습니다. 우리는 최선을 다해 예측하지만, 결국 틀리는 경우가 많다는 것입니다. 이는 우리의 능력 부족이라기보다는, 복잡한 인간 행동을 미리 예측하는 것이 본질적으로 매우 어렵기 때문입니다. 새로운 제품이나 정책을 한 번 출시하면 되돌리기 어렵기 때문에, 우리는 "한 번밖에 시도할 수 없다"는 제약에 직면합니다. 이러한 문제는 소비재, 개인 금융, 제품 디자인, 정책, 경영 등 다양한 분야에서 나타납니다. 심지어 교수님도 학생들의 반응을 예측하는 데 어려움을 겪는다고 합니다.

이러한 난제는 사실 새로운 것이 아닙니다. 1906년, 유명한 사회학자 로버트 머튼은 이미 100년도 더 전에 집단 행동을 설계하는 것의 어려움을 강조했습니다. 예를 들어, 모든 사람이 도시를 피해 동시에 휴가를 떠나면 결국 같은 장소에 모여 혼잡을 피할 수 없는 것과 같습니다. 이처럼 사람들의 반응을 예측하고 이에 맞춰 결정을 내리는 것은 늘 어려운 일이었죠.

2. '가상 실험기'의 등장: AI 에이전트 시뮬레이션

마이클은 이러한 난제를 해결하기 위해 "만약(what-if) 기계"가 있다면 어떨까? 라는 질문을 던집니다.

"만약 여러분에게 '만약' 기계가 있다면, 그것을 무엇에 사용하시겠습니까?"

만약 우리가 어떤 일이 발생하기 전에 미리 상상할 수 있다면, 우리는 훨씬 더 나은 결정을 내릴 수 있을 것이라고 말합니다. 예를 들어,

"우리 조직이 이 길을 택한다면 고객들이 어떻게 반응할까?"
"만약 우리가 실패하거나 잘못된다면, 어떤 경로를 통해 그렇게 될까?"
"이 정책 변경이나 신제품, 전략을 배포하기 전에 사람들이 어떻게 반응할지 미리 볼 수 있다면 어떨까?"

이러한 '가상 실험기'가 있다면, 우리는 훨씬 더 자주 더 나은 결정을 내릴 수 있을 것이라고 강조합니다. 이러한 비전은 컴퓨터 과학 연구자로서 마이클에게 흥미로운 질문을 던졌습니다. 바로 인간 행동을 재현하는 시뮬레이션 AI 에이전트를 만들 수 있을까? 라는 질문입니다. 우리 조직이나 고객처럼 행동하는 AI 시뮬레이션을 만들 수 있다면, 앞서 언급한 많은 문제들이 해결될 수 있을 것이라는 희망을 제시합니다.

물론 시뮬레이션 자체가 새로운 아이디어는 아닙니다. 1978년 노벨 경제학상을 수상한 토마스 셸링은 에이전트 기반 모델이라는 아이디어를 제시했고, 이는 오늘날에도 여전히 사용되고 있습니다. 이러한 모델들은 팬데믹 확산 예측과 같은 정책 결정에 활용됩니다. 또한 엔터테인먼트 분야에서는 많은 사람들이 플레이한 심즈(The Sims)와 같은 게임이 사람들의 행동을 시뮬레이션하는 대표적인 예시입니다.

최근에는 AI가 우리와 상호작용해야 하는 환경에 배치되면서, AI 동료와 같은 개념이 등장하고 있습니다. AI가 특정 행동을 취했을 때 우리가 어떻게 반응할지 예측하는 능력이 필요해진 것이죠. 마이클은 이러한 기술을 통해 '실행 전에 미리 살펴보는(look before you launch)' 도구를 만들 수 있다고 믿습니다. 그는 과거 소셜 미디어 플랫폼 디자인 경험을 통해, 문제가 발생한 후에야 정책을 수정하는 방식의 한계를 절감했다고 합니다.

"이러한 문제는 우리가 무엇이 잘못될지 효과적으로 예측할 수 없었기 때문에 발생했습니다."

결과적으로, 시스템을 출시하기 전에 어떤 정책이나 규칙을 설정해야 하는지 미리 파악하여 '재앙(dumpster fire)'을 피하고 사후 대응이 아닌 사전 예방을 가능하게 하는 도구를 만들 기회가 생겼습니다.

3. 기존 시뮬레이션 모델의 한계와 LLM의 등장

하지만 지금까지의 시뮬레이션 모델들은 너무 경직된(rigid) 한계를 가지고 있었습니다.

매개변수 기반 모델: 인간을 몇 가지 매개변수(예: 5개)로 축소하여 설명하려는 시도입니다. 인간 행동의 풍부함을 담기에는 너무 빈약한 모델입니다.
스크립트 기반 모델: 심즈처럼 '펀치를 맞으면 넘어져서 화를 낸다'와 같이 특정 상황에 대한 스크립트를 미리 작성하는 방식입니다. 이는 우리가 생각할 수 있는 종류의 행동에만 국한되며, 항상 불완전할 수밖에 없습니다.

이러한 한계로 인해 학계에서는 "모델들이 매우 양식화되어 있었고 영향력은 미미했다"는 평가를 받았습니다. 흥미롭기는 하지만, 실제 적용 사례는 많지 않았다는 것이죠.

하지만 몇 년 전부터 상황이 바뀌기 시작했습니다. 마이클의 동료들과 그는 ChatGPT, Claude, Llama, DeepSeek과 같은 대규모 언어 모델(Large Language Models, LLM)이 인간 행동에 대한 방대한 데이터를 학습했다는 사실에 주목했습니다.

"이들은 말 그대로 사람들이 어떻게 행동하는지에 대한 모든 연구를 읽었으며, 소셜 미디어 데이터에서도 인간 행동의 좋고 나쁘고 추한 모든 것을 보았습니다."

즉, LLM은 인간 행동에 대한 이론적 지식과 실제 사례를 모두 학습한 것입니다. 그 결과, LLM에게 다양한 배경, 경험, 특성을 가진 사람의 관점을 맡도록 프롬프트(prompt) 할 수 있다는 것을 깨달았습니다. LLM에게 특정 이름, 설명, 상황을 주고 그 사람이 어떻게 반응할지 물어보면, 여러 명의 반응을 조합하여 다양한 사람들의 군중을 만들 수 있다는 아이디어입니다. 이러한 군중을 다양한 상황에 배치하면 어떤 일이 일어날지 예측할 수 있게 됩니다.

4. '스몰빌(Smallville)' 시뮬레이션과 생성 에이전트

마이클과 그의 연구팀은 실제로 이러한 시뮬레이션을 시작했고, 이는 '생성 에이전트(Generative Agents)'라는 개념으로 큰 화제가 되었습니다. 그들은 작은 마을 '스몰빌(Smallville)'이라는 일종의 테라리움(terrarium)을 만들었습니다.

"우리는 거의 작은 테라리움 같은 것을 만들었습니다. 이 AI 에이전트들은 시뮬레이션된 사람들입니다. 우리는 이들을 생성 에이전트라고 부릅니다."

스몰빌에는 25명의 생성 에이전트가 살고 있습니다. 이들은 모두 완전히 자율적인 AI이며, 각각 다른 사람의 역할을 수행합니다. 마을의 예술가는 일어나 그림을 그리고, 대학생들은 늦잠을 자고 수업에 가고 숙제를 하는 등 각자의 일상을 살아갑니다. 이러한 시뮬레이션을 통해 인간 행동과 특정 개입이 사람들에게 어떤 영향을 미칠지 연구할 수 있는 공간이 마련된 것입니다.

이 연구는 많은 주목을 받았고, 특히 앤드리슨 호로위츠(Andreessen Horowitz)와 같은 투자사에서는 이 기술이 차세대 시장 조사 도구가 될 것이라고 주장하며 마이클 팀의 연구를 핵심적으로 인용했습니다.

마이클은 이번 웨비나에서 다음 내용을 설명할 것이라고 밝혔습니다:

AI 시뮬레이션이 믿을 수 있고(believable) 정확한(accurate) 인간 행동 시뮬레이션을 만들 수 있음
이러한 시뮬레이션을 가능하게 하는 기술 가이드
시뮬레이션 시 사람들이 흔히 저지르는 실수(gotchas)
이 기술의 현재 개척 분야(current frontiers), 즉 곧 가능해질 것들

4.1. 생성 에이전트 구축 방법

생성 에이전트를 만드는 기본적인 방법은 다음과 같습니다:

시각화: 온라인 아티스트에게 의뢰하여 다양한 캐릭터의 픽셀 아트를 만듭니다. 이는 주로 시뮬레이션의 진행 상황을 시각적으로 이해하는 데 도움을 줍니다. (필수는 아님)
페르소나 생성: 각 에이전트에 대한 작은 페르소나(persona)를 만듭니다. 예를 들어, '존 린(John Lin)'이라는 약사 캐릭터에게 마을 약국을 운영하며 매우 친절하다는 설명을 부여합니다.
관계 및 지식 부여: 에이전트가 시뮬레이션 내의 다른 에이전트들에 대해 알도록 정보를 제공합니다. 예를 들어, 존이 아내 메이 린(Mei Lin)과 결혼했으며, 음악 이론을 공부하는 대학생 아들 에디 린(Eddy Lin)이 있다는 정보를 입력합니다. 만약 이 정보를 주지 않으면, 에이전트는 시뮬레이션 초반에 옆에 있는 아내를 알아보지 못할 것입니다.

"기본적으로 우리는 에이전트들을 묘사하고, 그들이 그 이후부터 스스로 행동하도록 놔둘 것입니다."

에이전트들은 잠에서 깨어나 이빨을 닦고, 샤워를 하고, 아침 식사를 준비하고, 서로 대화하며 하루를 시작합니다. 마이클은 이 시점에서 참석자들이 실시간으로 마을을 볼 수 있는 데모 링크를 공유하며 직접 체험해 볼 것을 권장했습니다.

에이전트들은 주로 자연어를 사용하여 환경에서 행동합니다. 예를 들어, '이사벨라 로드리게스(Isabella Rodriguez)'라는 에이전트가 커피를 마신다고 말하면, 시스템은 이 텍스트를 게임 환경 내의 구체적인 움직임으로 변환합니다. 의자에 앉아 커피를 마시는 모습을 렌더링하고, 이모티콘으로 그 행동을 요약하여 보여줍니다.

또한, 사용자는 이 에이전트들과 직접 대화하며 개입할 수 있습니다. 예를 들어, 신문 기자처럼 행동하며 시장 후보에 대해 물어보면, 에이전트는 "샘이 시장에 출마할 것이라고 들었어요"라고 대답합니다. 심지어 에이전트의 목소리로 "존, 당신이 시장에 출마하세요"라고 말하면, 존은 "이 중요한 결정에 대해 가족과 이야기해야겠어요"라고 반응합니다. 사용자는 게임 세계에 개입하여 토스터에 불을 지르는 것과 같은 행동을 할 수도 있고, 에이전트는 이를 인지하고 불을 끄고 다른 아침 식사를 준비하는 등 적절히 반응합니다. 이는 환경에 대한 개입과 에이전트들의 반응을 연구할 수 있는 기회를 제공합니다.

4.2. 정보 확산과 복합 행동 시뮬레이션

에이전트들은 서로 대화하며 정보를 교환합니다. 아침에 존이 아들 에디와 대화하며 에디가 음악 이론 작곡 과제를 하고 있다고 말하면, 존은 이 정보를 기억합니다. 나중에 아내 메이가 일어나 아들의 행방을 물으면, 존은 이 정보를 아내에게 전달하여 정보가 환경을 통해 확산됩니다.

이보다 더 복잡한 시나리오를 알아보기 위해, 연구팀은 이사벨라(Isabella)라는 카페 운영 에이전트에게 발렌타인 데이 파티를 계획하려는 의도를 심어주었습니다. 시뮬레이션은 발렌타인 데이 전날인 2월 13일 아침부터 14일 저녁까지 진행됩니다.

놀랍게도, 파티 계획 모듈과 같은 특정 프로그래밍 없이도 에이전트는 스스로 파티를 계획하고 다른 에이전트들에게 알리기 시작했습니다. 이는 정보 확산 패턴(information diffusion patterns), 즉 소문이나 입소문과 유사하게 퍼져나갔습니다. 이사벨라는 사람들에게 파티 소식을 알리고, 그들은 다시 다른 사람들에게 알리는 식으로 정보가 퍼져나갔습니다. 이사벨라는 심지어 친구 마리아에게 도움을 요청하여 카페를 장식하기도 했습니다. 이 모든 것은 사전에 지시하지 않은 에이전트의 자발적인 결정이었습니다.

발렌타인 데이 당일, 마을의 25명 에이전트 중 12명(절반)이 파티 소식을 들었습니다. 그중 5명이 파티에 참석했고, 3명은 바쁘다고 했으며, 4명은 관심은 있었지만 결국 오지 않았습니다. 마이클은 이것이 현실과 얼마나 정확한지는 단정하기 어렵지만, 매우 그럴듯한(broadly plausible) 결과라고 평가했습니다.

더욱 흥미로운 점은, 연구팀이 이사벨라에게 파티 계획 의도를 부여하는 것 외에, 마리아(Maria) 에이전트에게 클라우스(Klaus)라는 다른 에이전트에게 호감이 있다는 기억을 심어주었다는 것입니다. 그 결과, 마리아는 클라우스를 파티에 초대했고, 이는 작은 '에이전트 사랑'으로 이어졌습니다. 🥰

다른 연구자들은 이 시뮬레이션을 재현하고 다른 시나리오에 개입하여 연구했습니다. 예를 들어,

새로운 전염병 소식: 라디오를 통해 새로운 전염병(돼지 독감) 소식을 들은 에이전트들은 파티에 나타나지 않았습니다. 불쌍한 클라우스만 소식을 듣지 못하고 파티에 나타났습니다.
위협 없음: 아무런 위협이 없는 조건에서는 파티가 평소처럼 진행되었습니다.
비감염성 질병: 당뇨 합병증과 같은 비감염성 질병에 대한 소식을 들었을 때도 파티는 정상적으로 진행되었습니다.

이러한 실험을 통해 "만약 이렇게 개입한다면 어떻게 될까?"와 같은 질문을 던질 수 있으며, 이는 매우 강력한 도구가 될 수 있음을 보여주었습니다.

5. 생성 에이전트 아키텍처의 핵심 요소

생성 에이전트를 구축하는 데 필요한 주요 부분은 다음과 같습니다.

5.1. 기억(Memory Stream)

에이전트에게 가장 먼저 필요한 것은 기억 능력입니다. 이는 기억 스트림(memory stream)이라고 불리며, 에이전트가 관찰하는 모든 것에 대한 시간순 기록(blow by blow record)입니다. 침대를 보고, 책상을 보고, 옷장을 보는 등 사소한 것부터 "스트레칭한다", "일기 쓴다", "부엌 청소한다"와 같은 행동까지 모두 기록됩니다.

하지만 이 모든 기억을 LLM에 한꺼번에 넣으면 모델이 산만해질 수 있습니다. 그래서 검색 증강 생성(Retrieval Augmented Generation, RAG)이라는 기법을 사용합니다. RAG는 다음과 같은 기준으로 기억을 선별적으로 검색합니다:

최신성(Recency): 최근에 관찰했거나 회상한 기억일수록 중요도가 높아집니다.
중요성(Importance): "이빨을 닦았다"는 기억보다 "파티 초대를 받았다"는 기억이 더 중요합니다. 에이전트가 스스로 기억의 중요도를 판단합니다.
관련성(Relevance): 에이전트가 수학 시험을 보고 있다면, 시험이나 수학 수업과 관련된 기억이 우선적으로 떠오릅니다.

이러한 방식을 통해 에이전트는 마치 구글 검색을 하듯 방대한 기억 속에서 필요한 정보를 찾아냅니다. 예를 들어, 에이전트에게 "지금 무엇을 기대하고 있나요?"라고 물으면, 최근 중요하고 관련성 있는 기억들(파티 계획, 장식 주문, 아이디어 검색)을 검색하여 LLM의 맥락 창에 넣습니다. 여기에 이사벨라 자신에 대한 설명을 추가하면, 이사벨라는 "이 발렌타인 데이 파티가 기대돼요"와 같이 합리적인 답변을 할 수 있게 됩니다. 이것이 바로 에이전트의 기억의 작동 방식입니다.

5.2. 성찰(Reflection)

마이클은 성찰 능력 또한 중요하다고 강조합니다. 기억 스트림은 단순히 '무슨 일이 일어났는지'를 기록하는 일화적 기억에 불과합니다. 하지만 우리는 단순한 기록 이상의 존재입니다. 에이전트에게는 자신이 누구인지, 무엇을 좋아하는지, 성향과 관심사, 목표에 대한 더 높은 수준의 성찰을 생성하는 능력이 필요합니다.

연구팀은 에이전트들이 비유적으로 '샤워 생각'을 하도록 만들었습니다. 즉, 정기적인 간격으로 기억 스트림에서 일부 기억을 가져와 에이전트에게 그 기억들에 대해 성찰하도록 요청합니다.

"본질적으로 에이전트들이 샤워 생각을 하도록 만듭니다. 비유적으로 말해서요."

예를 들어, 클라우스 뮐러(Klaus Mueller)가 '젠트리피케이션'과 '도시 설계'에 대해 읽고 있다는 두 가지 관찰을 통해, "클라우스는 독서에 많은 시간을 보낸다"는 더 높은 수준의 성찰(reflection)을 생성합니다. 이러한 성찰은 다시 기억 스트림에 삽입되어, 더욱 높은 수준의 성찰을 생성하며 에이전트의 정체성과 목표를 형성합니다. 이는 에이전트가 단순히 로봇처럼 단계별로 움직이는 것이 아니라, 자신의 목표와 더 일관된 행동을 하도록 만듭니다.

5.3. 계획(Planning)

마지막 핵심 요소는 계획 능력입니다. 에이전트가 장기간에 걸쳐 믿을 수 있는 행동을 유지하려면 계획이 필수적입니다. 이는 AI 분야에서 오래된 과제였습니다.

에이전트는 먼저 하루 전체의 계획을 세웁니다. 그 다음, 하루 계획을 바탕으로 시간별 계획을 세우고, 다시 분 단위의 세부 계획으로 쪼갭니다. 에이전트가 환경에서 행동하는 동안 새로운 것을 발견하면(예: 존 에이전트가 아들 에디가 직장 주변을 산책하는 것을 보는 경우), 에이전트는 자신의 배경 지식을 바탕으로 그 관찰에 반응해야 하는지 여부를 판단하고, 적절한 반응이 무엇인지 결정한 후, 필요하다면 계획을 다시 세웁니다.

"이것이 바로 시뮬레이션이 실행되는 동안 에이전트들이 어떻게 적응하는지입니다."

이러한 과정을 통해 에이전트들은 환경의 변화에 맞춰 유연하게 행동하고 계획을 수정하여 현실적인 반응을 보이게 됩니다.

6. 시뮬레이션의 정확성 측정: 신뢰성과 타당성

마이클의 연구는 많은 주목을 받았지만, 그는 "인간 행동을 재현하는 AI 에이전트를 만들 수 있는가?"라는 질문에 완전히 답한 것은 아니라고 말합니다. 그가 보여준 것은 에이전트의 '믿을 수 있는(believability)' 행동입니다. 디즈니 캐릭터나 만화도 믿을 수 있지만, 그것이 정확한 것은 아닙니다. 만약 이러한 시뮬레이션에 기반하여 실제 결정을 내린다면, 에이전트가 행동을 얼마나 정확하게 재현하는지가 중요한 문제입니다.

"디즈니 캐릭터는 믿을 수 있습니다. 만화는 믿을 수 있습니다. 하지만 정확하지 않을 수도 있습니다."

그렇다면 어떻게 이 정확성을 측정할 수 있을까요? 마이클은 몇 가지 방법을 제시합니다.

6.1. 인구통계학적 에이전트 vs. 페르소나 에이전트

인구통계학적 에이전트(Demographic Agents): 특정 인구 집단의 샘플을 가져와 나이, 거주지, 직업 등 인구통계학적 정보만을 사용하여 에이전트를 만듭니다.
페르소나 에이전트(Persona Agents): 스몰빌 시뮬레이션에서처럼, 사람에 대한 더 많은 내러티브(이야기) 기반의 설명을 사용하여 에이전트를 만듭니다.

하지만 기존 연구에 따르면 이 두 가지 접근 방식 모두 매우 단순화되고 정형화된(stereotyped) 행동을 만들어낼 수 있습니다. 예를 들어, 박준성(Joon Park) 연구원(한국인)에게 점심으로 무엇을 먹을지 묻자, 모델이 "쌀"이라고 답하는 식입니다. 이는 정확하지 않고 편향된, 매우 정형화된 답변이었습니다.

6.2. 심층 인터뷰를 통한 '디지털 트윈' 생성

이러한 문제를 해결하기 위해, 연구팀은 풍부한 질적 정보(rich qualitative information)가 효과적이라는 것을 발견했습니다.

1,000명 대상 2시간 심층 인터뷰: 대표성 있는 미국인 1,000명을 대상으로 2시간짜리 심층 인터뷰를 진행했습니다. (나중 연구에서는 2시간까지는 필요 없다는 것을 발견했습니다.)
'아메리칸 보이스 프로젝트' 스크립트 활용: 스탠포드의 데이비드 그루스키 교수가 이끄는 '아메리칸 보이스 프로젝트'의 광범위한 인터뷰 스크립트를 사용했습니다. 이 스크립트는 "당신의 인생 이야기를 들려주세요"라는 질문으로 시작하여 커뮤니티, 직업, 재정, 건강, 정치 등 삶의 다양한 측면을 다룹니다.
디지털 트윈(Digital Twin) 생성: 이 2시간짜리 인터뷰를 바탕으로 각 실제 사람의 디지털 트윈인 생성 에이전트를 만들었습니다. 인터뷰 내용 자체가 에이전트의 기억이 되는 것입니다. 이제 1,000명의 실제 사람과 1,000명의 쌍둥이 에이전트가 생겼습니다.
실제 사람과 에이전트의 설문/실험 비교: 실제 사람들은 '일반 사회 조사(General Social Survey, GSS)'와 같은 광범위한 설문조사(약 170개 질문)와 '빅 5 성격 지표', 행동 경제학 게임 등 다양한 실험에 참여했습니다. 동일한 설문조사와 실험을 생성 에이전트들도 수행했습니다.
정확성 측정: 이제 실제 사람의 에이전트 버전이 해당 사람의 실제 행동과 태도를 얼마나 정확하게 재현하는지 측정할 수 있게 되었습니다.

"우리는 이 사람의 에이전트가 그 사람의 실제 행동과 태도를 얼마나 가깝게 재현하는지 묻습니다."

이 인터뷰는 실제로는 AI 에이전트가 진행하는 음성 인터뷰였으며, 사람들의 배경, 인생 이야기, 정치적 성향, 직업, 재정 등 매우 풍부한 정보를 얻을 수 있었습니다. 이 데이터를 바탕으로 에이전트를 만들려면, 인터뷰 녹취록을 LLM 프롬프트의 상단에 넣고, "이 인터뷰 내용을 바탕으로 이 사람이 다음 설문조사나 실험에 어떻게 응답할지 예측해 주세요"라고 지시하면 됩니다.

6.3. 놀라운 결과: 인간의 자기 복제 수준에 근접

연구 결과는 놀라웠습니다. 에이전트들이 태도와 행동을 정확하게 재현한다는 것을 발견했습니다. 정확성을 설명하기 위해 중요한 방법론적 배경이 있습니다. 한 사람이 오늘 설문조사에 응답하고 2주 후에 다시 응답하면, 완전히 똑같은 답변을 하지는 않을 것입니다. 따라서 이러한 변동성을 표준화해야 합니다.

연구팀은 실험 참가자 1,000명 모두에게 동일한 설문조사를 2주 간격으로 두 번 실시했습니다. 그리고 에이전트의 정확성을 '사람이 2주 후 자신을 재현하는 정확성'에 대한 비율로 측정했습니다.

1.0 = 에이전트가 사람이 2주 후 자신을 재현하는 것과 똑같은 정확도로 사람의 응답을 재현합니다.
0.1 = 에이전트가 사람이 2주 후 자신을 재현하는 것의 10% 정확도로 사람의 응답을 재현합니다.

결과:

무작위 추측: 큰 설문조사에서 무작위로 추측할 경우, 사람의 응답을 약 3분의 1 정도 재현합니다. 이는 사람의 행동이 얼마나 예측 가능한지에 대한 기준선입니다.
페르소나/인구통계학적 에이전트: 약 70%의 정확도로 사람의 응답을 재현합니다.
심층 인터뷰 기반 에이전트: 일반 사회 조사(GSS)에서 85%의 정확도로 사람의 응답을 재현합니다. 마이클은 이것이 "매우 인상적"이라고 평가했습니다.

이러한 결과는 GSS뿐만 아니라 '빅 5 성격 지표', 행동 경제학 게임 등 다른 작업에서도 유사한 범위의 정규화된 계수를 보였습니다. 이는 상당한 가능성을 시사합니다.

6.4. 편향 감소 및 과학적 연구 재현 능력

더욱이, 이러한 심층 인터뷰는 편향을 줄이는 효과가 있었습니다. 단순히 '공화당 보수주의자'와 같은 단일 정보만으로는 정형화된 답변이 나오지만, 풍부한 정보가 있을 경우 모델은 훨씬 더 미묘한 답변을 생성할 수 있습니다.

정치적 성향: 정치는 모델링하기 가장 어려운 분야였지만, 인터뷰는 편향을 크게 줄였습니다.
성별 및 인종: 예상보다 작은 격차를 보였으며, 인터뷰를 통해 정확도 차이가 거의 1% 미만으로 줄어들었습니다.

특히 놀라운 점은 과학적 연구 재현 능력입니다. 연구팀은 최고 수준의 학술지에 게재된 5개의 실험 연구를 1,000명의 실제 사람과 1,000명의 에이전트에게 재현하도록 했습니다.

에이전트는 5개의 연구 중 4개를 재현했습니다.
"이게 좋지 않다고 말할 수도 있지만, 우리가 놓친 것이 아닙니다. 1,000명의 실제 사람들도 그 다섯 번째 연구를 재현하지 못했습니다."
즉, 다섯 번째 연구는 사실 나쁜 과학이었고, 실제 사람들에게서도 재현되지 않는 결과였습니다. 시뮬레이션은 이 사실을 정확하게 예측했습니다! 😲

스탠포드의 동료 롭 윌러(Robb Willer)는 이 결과를 더욱 일반화하여, 사전 등록된(pre-registered) 비공개 연구 결과(10만 명 대상)를 시뮬레이션으로 예측한 결과, 0.85에서 0.9 사이의 매우 강한 상관관계로 실험의 효과 크기를 예측할 수 있음을 발견했습니다.

6.5. 에이전트 뱅크 구축과 활용

이러한 연구를 통해 미국인 1,000명의 '에이전트 뱅크(agent bank)'를 구축했습니다. 이 에이전트 뱅크는 탈극화, 기후 변화와 같은 다양한 질문을 테스트하는 데 활용될 수 있습니다.

조직에서는 어떤 질문에 관심이 있는지에 따라 에이전트 뱅크를 구성하는 방식을 고민해야 합니다:

고객을 대표해야 하는가?
현재 고객은 아니지만 잠재 고객이 될 수 있는 사람들을 대표해야 하는가?
기존 마케팅이나 사용자 조사 데이터(과거 인터뷰 데이터)를 활용하여 에이전트 뱅크로 전환할 수 있는가?

7. 시뮬레이션의 'How-to' 가이드 및 주의사항 (Gotchas)

마이클은 이러한 종류의 시뮬레이션을 구축하기 위한 조언을 제공합니다.

7.1. 에이전트 정의의 질

나쁜 방법: 에이전트를 단일 인구통계학적 변수(예: '보수주의자', '공화당원')로만 정의하는 것입니다. 이는 모든 종류의 정형화된 행동을 만들어내고, 행동의 다양성(variance)을 과소평가하여 불확실한 상황을 확실하게 보이게 만듭니다. 정보가 충분하지 않습니다.
그다지 나쁘지 않은 방법: 5~6개의 인구통계학적 변수를 사용하는 것입니다. 이는 사람이 2주 후 자신을 재현하는 것의 약 70% 수준으로 사람을 재현할 수 있었습니다.
더 나은 방법: 가능한 한 풍부한 데이터를 수집하는 것입니다. 심층 인터뷰와 같은 방식이죠. 놀랍게도 2시간짜리 인터뷰를 80% 삭제하여 훨씬 짧게 만들었을 때도 정확도는 0.85에서 0.79로 크게 줄어들지 않았습니다. 이는 인터뷰가 매우 풍부한 정보를 제공한다는 것을 의미합니다.

"이러한 인터뷰에는 매우 풍부한 정보가 담겨 있습니다."

하지만 중요한 것은 인터뷰의 남은 부분이 예측하려는 내용과 관련이 있어야 한다는 점입니다. 패션에 대해서만 인터뷰하고 기후 변화에 대한 견해를 예측하려고 한다면, 모델이 일반화할 수 있는 정보가 충분하지 않을 것입니다. 스포츠 팀에 대해서만 인터뷰하고 은퇴 계획을 예측하려고 할 때도 마찬가지입니다. 수집하는 데이터가 관련성이 있는지 확인해야 합니다.

7.2. 시뮬레이션의 위험 완화: '사다리 비유'

이러한 기술에는 위험이 따릅니다. 모든 연구가 정확하게 재현되는 것은 아니며, 실제 적용 사례에서 오류가 발생할 수 있습니다. 예를 들어, 한 회사에서 시도한 은퇴 계획 수수료에 대한 시뮬레이션에서, 18~35세 그룹의 실제 응답은 '매우 잘 알고 있음'이 13%였지만, 시뮬레이션 결과는 1.2%에 불과했습니다. 이는 13%와 1.2%의 차이가 특정 인구 집단을 무시할지, 아니면 중요한 소수 집단으로 고려할지에 대한 의사 결정에 큰 영향을 미 미칠 수 있음을 보여줍니다.

마이클은 시뮬레이션을 '사다리'에 비유하며, 사다리를 오를수록 더 큰 위험을 감수하지만, 동시에 더 야심찬 목표를 달성할 수 있다고 설명합니다.

가능성(Possibility) 단계 (가장 낮은 위험):
- 질문: 무엇이 일어날 수 있는가? (확률은 부여하지 않음)
- 신뢰 조건: 잠재적 결과로 이어질 수 있는 그럴듯한 사건의 연쇄를 생성할 수 있어야 합니다. 사용자가 그 연쇄를 보고 "아, 그럴 수 있겠네"라고 납득할 수 있어야 합니다.
- 활용: 시스템에 트롤(troll)이 나타나면 어떻게 시스템을 교란할 수 있는지 예측하고, 그에 대한 안전장치를 마련하는 것과 같습니다. 이 단계는 현재 대체로 잘 작동한다고 할 수 있습니다.
질적 결과(Qualitative Outcomes) 단계:
- 질문: 태도, 채팅 결과 등.
- 신뢰 조건: 개별 태도를 정확하게 추정할 수 있어야 합니다.
- 활용: 충분히 풍부한 데이터가 있다면 현재 대부분 잘 작동합니다. 실제 커뮤니티와 소통하는 것을 대체할 수는 없지만, 새로운 정책이나 제품에 대한 사람들의 반응을 대략적으로 파악하는 데 유용합니다.
양적 결과(Quantitative Outcomes) 단계:
- 질문: 히스토그램, 막대 차트 등 5%와 10%의 차이가 중요한 경우.
- 신뢰 조건: 양적 정확성에 대한 실제 측정이 필요합니다. 시장 조사 설문조사를 재현할 수 있는가?
- 활용: 많은 경우에 가능하지만, 오류도 발생할 수 있으므로 신중하게 접근해야 합니다. 100가지 아이디어 중 시뮬레이션을 통해 5가지 유망한 아이디어로 좁히고, 나머지 5가지는 실제 사람들에게 A/B 테스트를 거쳐야 한다고 조언합니다.
다중 에이전트 시뮬레이션(Multi-agent Simulation) 단계 (가장 높은 위험):
- 질문: 스몰빌 마을과 같은 전체 시장 시뮬레이션.
- 신뢰 조건: 모든 개별 에이전트가 정확하다는 것을 신뢰할 수 있어야 합니다. 개별 에이전트가 정확하다면, 이들을 조합했을 때 나타나는 emergent outcome(창발적 결과)도 정확해야 합니다.
- 활용: 아직 의사 결정에 바로 적용하기에는 준비되지 않았다고 강조합니다. 복잡계적 관점에서 접근할 수도 있지만, 이는 더욱 어렵습니다. 다중 에이전트 시뮬레이션은 옳을 수도 있지만 틀릴 수도 있으며, 그 둘을 구별하기 어렵기 때문에 매우 신중해야 합니다.

7.3. 위험 완화 전략

도메인 내 데이터 확보: 에이전트의 기억에 관련성 있는 데이터(in-domain data)가 있는지 확인합니다. 패션에 대해 묻는다면 패션 관련 데이터를, 은퇴에 대해 묻는다면 은퇴 관련 데이터를 제공해야 합니다.
'거친 문제(rough-edged problems)'에 집중: 가능성 및 질적 결과 단계와 같이 80%만 정확해도 도움이 되는 문제에 집중합니다. 이는 학습에 도움이 되지만, 양적 결과와 같은 '예리한 문제(sharp-edged problems)'는 정확하지 않을 경우 잘못된 결정을 내릴 수 있습니다.
작은 하위 샘플로 검증: 중요한 질문에 대해서는 소규모 실제 사람들에게 검증하여 모델이 너무 벗어나지 않는지 확인합니다.

8. 기술의 미래 개척 분야 (Frontiers)

이러한 AI 에이전트 시뮬레이션 기술은 여러 분야에서 새로운 가능성을 열어주고 있습니다.

8.1. '실행 전 미리 살펴보기(Look Before You Launch)' 도구

이 기술은 온라인 플랫폼 디자인에서 시작되었습니다. 정책이 예상치 못한 부작용을 일으키는 경우가 많았는데, 이러한 시뮬레이션 도구는 문제가 발생하기 전에 미리 해결하는 데 매우 유용하다는 것이 입증되었습니다.

"우리가 하는 모든 일은 '재앙(dumpster fire)'에 대한 반응으로 설정됩니다. 그것은 커뮤니티를 운영하는 정말 끔찍한 방법입니다."

사용자들은 시뮬레이션 내에서 반복 작업을 통해 "이러한 낮은 노력의 게시물이 이런 결과를 낳을 줄 몰랐다"거나 "트롤이 이런 식으로 반응할 줄 몰랐다"고 깨달았습니다. 그리고 실제로 시스템을 출시하기 전에 문제를 수정할 수 있었습니다. 마이클은 매년 온라인 플랫폼 디자인 수업에서 학생들에게 트롤 공격에 맞서 시스템을 유지하도록 하는 과제를 내는데, 이를 통해 더 나은 프로젝트를 만들 수 있다고 합니다.

8.2. 소프트 스킬 훈련 (Training Soft Skills)

스탠포드 비즈니스 스쿨의 갈등 및 협상 전문가와 협력하여 이 기술을 활용한 소프트 스킬 훈련 도구를 구축했습니다. 사람들은 갈등 협상에 능숙하다고 생각하지만, 상황이 틀어지면 어려움을 겪습니다. 생성 에이전트는 스파링 파트너 또는 훈련 파트너 역할을 할 수 있습니다.

"아마도 이 생성 에이전트들이 스파링 파트너나 훈련 파트너 역할을 할 수 있을 것입니다."

새로운 직업의 연봉 협상과 같은 실제 갈등 상황에 직면하기 전에, 시뮬레이션에서 연습할 수 있는 도구를 만들었습니다. 연구팀은 실험을 통해 한 그룹에게는 갈등 대처 전략에 대한 강의를 시청하게 하고, 다른 그룹에게는 강의 시청과 함께 시뮬레이션된 갈등 상황을 경험하게 했습니다. 두 그룹 모두 갈등에 대한 이론적 지식 테스트에서는 동일하게 좋은 점수를 받았지만, 시뮬레이션을 경험한 그룹만이 실제 갈등 상황에서 더 나은 성과를 보였습니다. 시뮬레이션을 통해 반사회적 전략을 사용할 가능성이 3분의 2나 줄어들었습니다. 이는 시뮬레이션에서 무언가를 시도해 보는 것이 학습에 크게 도움이 된다는 것을 시사합니다.

8.3. 비즈니스 애플리케이션 및 시장 연구

이 기술은 시장 조사와 같은 다양한 비즈니스 애플리케이션에 활용될 잠재력이 큽니다. 앤드리슨 호로위츠의 보고서에서도 언급되었듯이, 마이클의 스탠포드 연구는 시밀레(Simile)라는 회사로 스핀아웃되었습니다.

"이 '만약(what-if) 기계'를 만들 기회를 통해 우리가 배울 수 있는 것이 너무나 많다는 것을 강조하고 싶습니다."

이러한 기술은 우리가 미래에 어떤 일이 일어날지 예측하고, 더 나은 의사 결정을 내리는 데 도움을 줄 수 있는 강력한 '가상 실험기'가 될 것입니다. 마이클은 더 많은 정보를 원하는 사람들을 위해 자신이 가르치는 온라인 강좌의 QR 코드를 공유하며 웨비나를 마무리했습니다.

마무리

스탠포드 글로벌 동문 웨비나에서 마이클이 제시한 AI 에이전트 시뮬레이션은 인간 행동 예측의 오랜 난제를 해결할 혁신적인 접근법을 보여주었습니다. 특히 대규모 언어 모델(LLM)의 발전과 함께, '기억', '성찰', '계획'이라는 세 가지 핵심 아키텍처를 통해 매우 믿을 수 있고 정확한 '생성 에이전트'를 만들 수 있음을 입증했습니다. '스몰빌' 시뮬레이션과 같은 실제 사례는 정보 확산, 복합 행동 예측, 그리고 정책 개입에 대한 반응 예측 가능성을 보여주며 이 기술의 잠재력을 실감하게 했습니다.

물론, 이 기술은 아직 발전 초기 단계이며 '사다리 비유'에서 설명했듯이, 양적 결과 예측이나 다중 에이전트 시뮬레이션과 같은 복잡한 영역에서는 여전히 신중한 접근과 검증이 필요합니다. 하지만 '실행 전 미리 살펴보기' 도구나 소프트 스킬 훈련과 같은 초기 단계의 응용 분야에서 이미 큰 효용성을 입증하고 있습니다. 궁극적으로 이 '가상 실험기'는 기업, 정책 입안자, 개인 모두가 더 현명하고 예측 가능한 결정을 내릴 수 있도록 돕는 강력한 도구로 자리매김할 것으로 기대됩니다. ✨