딥 리서치(Deep Research)의 작동 원리 - Mukund Sridhar & Aarush Selvan, Google DeepMind

🎥 영상 개요

이 영상은 Google DeepMind의 Mukund Sridhar와 Aarush Selvan이 딥 리서치(Deep Research)라는 기능의 작동 원리와 개발 과정에서의 도전 과제, 그리고 앞으로의 발전 가능성에 대해 설명하는 내용입니다. 딥 리서치는 사용자가 웹을 탐색하지 않아도 개인 맞춤형 리서치 에이전트가 대신 정보를 수집하고 종합적인 보고서를 생성해주는 도구입니다. 이 기능은 특히 Gemini라는 Google의 AI 플랫폼에서 제공되며, 사용자가 복잡한 질문에 대해 더 깊이 있는 답변을 받을 수 있도록 설계되었습니다.

🧠 딥 리서치의 탄생 배경

1. 왜 딥 리서치를 만들었는가?

목표: 사람들이 빠르게 스마트해질 수 있도록 돕는 것.
Gemini 사용 사례 중 리서치와 학습 관련 쿼리가 상위권을 차지했지만, 기존 챗봇은 복잡한 질문에 대해 표면적인 답변만 제공하는 한계가 있었습니다.
예시 질문: "투포환(shot put) 장학금을 받으려면 어떻게 해야 하나요?"
- 기존 챗봇의 답변: "코치와 상담하세요", "던질 수 있는 거리를 확인하세요", "성적을 유지하세요."
- 문제점: 사용자가 원하는 것은 구체적인 정보(예: 필요한 거리, 성적 기준 등)였지만, 챗봇은 일반적인 가이드라인만 제공.

"우리가 원했던 것은 단순한 청사진이 아니라, 정말로 종합적이고 구체적인 답변이었습니다."

2. 딥 리서치의 접근 방식

제약 제거: 컴퓨팅 리소스와 지연 시간의 제약을 없애고, Gemini가 필요한 만큼 웹을 탐색하도록 설계.
시간 제한: 그러나 현실적으로 5분 이내에 결과를 제공해야 하는 제약이 존재.

🛠️ 딥 리서치 개발 과정에서의 도전 과제

1. 비동기적 경험 설계

Gemini는 본래 동기적(즉각적인 응답)으로 작동하는 챗봇이지만, 딥 리서치는 비동기적(시간이 걸리는 작업)으로 작동해야 했습니다.
사용자에게 기대치를 설정하는 것이 중요:
- 딥 리서치는 복잡한 리서치에 적합하지만, 단순한 질문(예: "오늘 날씨는?")에는 적합하지 않음.

"딥 리서치는 단순한 챗봇이 아니라, 사용자를 위한 맞춤형 리서치 에이전트입니다."

2. 긴 출력물과 사용자 경험

딥 리서치의 결과는 수천 단어에 달할 수 있습니다. 이를 사용자들이 쉽게 읽고 상호작용할 수 있도록 설계해야 했습니다.
해결책:
- 리서치 플랜 카드: 사용자가 리서치 시작 전에 계획을 검토하고 수정할 수 있도록 제공.
- 실시간 진행 상황 표시: Gemini가 탐색 중인 웹사이트를 실시간으로 보여줌.
- 아티팩트 핀 기능: 사용자가 특정 정보를 고정하고, 관련 질문을 바로 할 수 있도록 지원.

🔍 딥 리서치의 작동 방식

1. 리서치 플랜 생성

사용자가 질문을 입력하면, Gemini는 먼저 리서치 플랜을 생성하여 사용자에게 제시.
사용자는 이 플랜을 검토하고 수정 가능.

"좋은 분석가처럼, Gemini는 바로 작업에 들어가지 않고 먼저 계획을 보여줍니다."

2. 웹 탐색 및 정보 수집

Gemini는 웹사이트를 탐색하며 정보를 수집하고, 이를 실시간으로 사용자에게 보여줌.
사용자는 탐색 중인 웹사이트를 클릭해 내용을 확인할 수 있음.
일부 사용자는 탐색한 웹사이트 수를 늘리기 위해 실험적으로 수천 개의 웹사이트를 탐색하도록 시도하기도 함.

3. 종합 보고서 생성

최종적으로 수집된 정보를 바탕으로 종합적인 보고서를 생성.
보고서는 사용자가 스타일을 변경하거나 섹션을 추가/삭제할 수 있도록 유연하게 설계됨.
출처 투명성: 사용된 모든 출처를 명시하고, Google Docs로 내보낼 때는 인용 형식으로 제공.

🚧 기술적 도전 과제

1. 장시간 작업의 안정성

딥 리서치는 여러 분산된 서비스와 상호작용하며 작업을 수행하기 때문에, 중간 실패에 대비한 복구 메커니즘이 필요.
상태 관리와 오류 복구가 핵심.

2. 계획 및 정보 처리

모델은 병렬적으로 처리할 수 있는 작업과 순차적으로 처리해야 하는 작업을 구분해야 함.
부분 정보 처리:
- 예: D1 디비전의 투포환 기준은 찾았지만, D2와 D3 디비전의 기준은 추가로 찾아야 함.
- 여러 출처에서 정보를 조합해 완전한 답변을 생성.

"모델은 발견한 정보를 기반으로 다음 단계를 계획하고, 불완전한 정보를 보완해야 합니다."

3. 웹 환경의 소음 처리

웹은 정보가 분산되어 있고, 레이아웃이 다양하기 때문에 탐색이 어려움.
강력한 브라우징 메커니즘이 필수.

4. 컨텍스트 관리

사용자가 후속 질문을 하거나 새로운 주제를 추가할 경우, 컨텍스트 크기가 급격히 증가.
해결책:
- 최신 작업과 이전 작업의 정보를 선택적으로 저장.
- 오래된 정보는 리서치 노트로 저장해 필요 시 참조 가능.

🌟 딥 리서치의 미래

1. 전문성 강화

현재 딥 리서치는 맥킨지 분석가 수준의 정보를 제공하지만, 미래에는 맥킨지 파트너 수준으로 발전할 가능성.
단순 정보 수집을 넘어, 의미 있는 통찰과 패턴을 도출하는 방향으로 진화.

2. 다양한 도메인 확장

과학, 금융, 법률 등 전문 분야에서 활용 가능.
예: 논문을 읽고 가설을 세우거나, 금융 모델을 생성.

3. 멀티모달 기능 통합

텍스트 기반 리서치뿐만 아니라, 코딩, 데이터 분석, 비디오 생성 등 다양한 기능과 결합.
예: 기업 실사를 수행할 때, 통계 분석과 재무 모델링을 자동으로 수행.

"우리는 딥 리서치가 단순한 도구를 넘어, 사용자의 진정한 동반자가 되기를 바랍니다."

🎉 마무리

딥 리서치는 복잡한 질문에 대해 종합적이고 구체적인 답변을 제공하기 위해 설계된 혁신적인 도구입니다. Google DeepMind 팀은 이 기능을 통해 사용자가 더 스마트하게, 더 빠르게 정보를 얻을 수 있도록 돕고자 합니다. 앞으로 딥 리서치가 어떤 방향으로 발전할지 기대됩니다!

"우리는 이 기능을 'Gemini Deep Dive'라고 부를 뻔했지만, 지금의 이름이 훨씬 더 잘 어울린다고 생각합니다. 감사합니다!" 😊