🎥 영상 개요

이 영상은 Google DeepMind의 Mukund Sridhar와 Aarush Selvan이 딥 리서치(Deep Research)라는 기능의 작동 원리와 개발 과정에서의 도전 과제, 그리고 앞으로의 발전 가능성에 대해 설명하는 내용입니다. 딥 리서치는 사용자가 웹을 탐색하지 않아도 개인 맞춤형 리서치 에이전트가 대신 정보를 수집하고 종합적인 보고서를 생성해주는 도구입니다. 이 기능은 특히 Gemini라는 Google의 AI 플랫폼에서 제공되며, 사용자가 복잡한 질문에 대해 더 깊이 있는 답변을 받을 수 있도록 설계되었습니다.


🧠 딥 리서치의 탄생 배경

1. 왜 딥 리서치를 만들었는가?

  • 목표: 사람들이 빠르게 스마트해질 수 있도록 돕는 것.
  • Gemini 사용 사례 중 리서치와 학습 관련 쿼리가 상위권을 차지했지만, 기존 챗봇은 복잡한 질문에 대해 표면적인 답변만 제공하는 한계가 있었습니다.
  • 예시 질문: "투포환(shot put) 장학금을 받으려면 어떻게 해야 하나요?"
    • 기존 챗봇의 답변: "코치와 상담하세요", "던질 수 있는 거리를 확인하세요", "성적을 유지하세요."
    • 문제점: 사용자가 원하는 것은 구체적인 정보(예: 필요한 거리, 성적 기준 등)였지만, 챗봇은 일반적인 가이드라인만 제공.

"우리가 원했던 것은 단순한 청사진이 아니라, 정말로 종합적이고 구체적인 답변이었습니다."

2. 딥 리서치의 접근 방식

  • 제약 제거: 컴퓨팅 리소스와 지연 시간의 제약을 없애고, Gemini가 필요한 만큼 웹을 탐색하도록 설계.
  • 시간 제한: 그러나 현실적으로 5분 이내에 결과를 제공해야 하는 제약이 존재.

🛠️ 딥 리서치 개발 과정에서의 도전 과제

1. 비동기적 경험 설계

  • Gemini는 본래 동기적(즉각적인 응답)으로 작동하는 챗봇이지만, 딥 리서치는 비동기적(시간이 걸리는 작업)으로 작동해야 했습니다.
  • 사용자에게 기대치를 설정하는 것이 중요:
    • 딥 리서치는 복잡한 리서치에 적합하지만, 단순한 질문(예: "오늘 날씨는?")에는 적합하지 않음.

"딥 리서치는 단순한 챗봇이 아니라, 사용자를 위한 맞춤형 리서치 에이전트입니다."

2. 긴 출력물과 사용자 경험

  • 딥 리서치의 결과는 수천 단어에 달할 수 있습니다. 이를 사용자들이 쉽게 읽고 상호작용할 수 있도록 설계해야 했습니다.
  • 해결책:
    • 리서치 플랜 카드: 사용자가 리서치 시작 전에 계획을 검토하고 수정할 수 있도록 제공.
    • 실시간 진행 상황 표시: Gemini가 탐색 중인 웹사이트를 실시간으로 보여줌.
    • 아티팩트 핀 기능: 사용자가 특정 정보를 고정하고, 관련 질문을 바로 할 수 있도록 지원.

🔍 딥 리서치의 작동 방식

1. 리서치 플랜 생성

  • 사용자가 질문을 입력하면, Gemini는 먼저 리서치 플랜을 생성하여 사용자에게 제시.
  • 사용자는 이 플랜을 검토하고 수정 가능.

    "좋은 분석가처럼, Gemini는 바로 작업에 들어가지 않고 먼저 계획을 보여줍니다."

2. 웹 탐색 및 정보 수집

  • Gemini는 웹사이트를 탐색하며 정보를 수집하고, 이를 실시간으로 사용자에게 보여줌.
  • 사용자는 탐색 중인 웹사이트를 클릭해 내용을 확인할 수 있음.
  • 일부 사용자는 탐색한 웹사이트 수를 늘리기 위해 실험적으로 수천 개의 웹사이트를 탐색하도록 시도하기도 함.

3. 종합 보고서 생성

  • 최종적으로 수집된 정보를 바탕으로 종합적인 보고서를 생성.
  • 보고서는 사용자가 스타일을 변경하거나 섹션을 추가/삭제할 수 있도록 유연하게 설계됨.
  • 출처 투명성: 사용된 모든 출처를 명시하고, Google Docs로 내보낼 때는 인용 형식으로 제공.

🚧 기술적 도전 과제

1. 장시간 작업의 안정성

  • 딥 리서치는 여러 분산된 서비스와 상호작용하며 작업을 수행하기 때문에, 중간 실패에 대비한 복구 메커니즘이 필요.
  • 상태 관리오류 복구가 핵심.

2. 계획 및 정보 처리

  • 모델은 병렬적으로 처리할 수 있는 작업순차적으로 처리해야 하는 작업을 구분해야 함.
  • 부분 정보 처리:
    • 예: D1 디비전의 투포환 기준은 찾았지만, D2와 D3 디비전의 기준은 추가로 찾아야 함.
    • 여러 출처에서 정보를 조합해 완전한 답변을 생성.

"모델은 발견한 정보를 기반으로 다음 단계를 계획하고, 불완전한 정보를 보완해야 합니다."

3. 웹 환경의 소음 처리

  • 웹은 정보가 분산되어 있고, 레이아웃이 다양하기 때문에 탐색이 어려움.
  • 강력한 브라우징 메커니즘이 필수.

4. 컨텍스트 관리

  • 사용자가 후속 질문을 하거나 새로운 주제를 추가할 경우, 컨텍스트 크기가 급격히 증가.
  • 해결책:
    • 최신 작업과 이전 작업의 정보를 선택적으로 저장.
    • 오래된 정보는 리서치 노트로 저장해 필요 시 참조 가능.

🌟 딥 리서치의 미래

1. 전문성 강화

  • 현재 딥 리서치는 맥킨지 분석가 수준의 정보를 제공하지만, 미래에는 맥킨지 파트너 수준으로 발전할 가능성.
  • 단순 정보 수집을 넘어, 의미 있는 통찰과 패턴을 도출하는 방향으로 진화.

2. 다양한 도메인 확장

  • 과학, 금융, 법률 등 전문 분야에서 활용 가능.
  • 예: 논문을 읽고 가설을 세우거나, 금융 모델을 생성.

3. 멀티모달 기능 통합

  • 텍스트 기반 리서치뿐만 아니라, 코딩, 데이터 분석, 비디오 생성 등 다양한 기능과 결합.
  • 예: 기업 실사를 수행할 때, 통계 분석과 재무 모델링을 자동으로 수행.

"우리는 딥 리서치가 단순한 도구를 넘어, 사용자의 진정한 동반자가 되기를 바랍니다."


🎉 마무리

딥 리서치는 복잡한 질문에 대해 종합적이고 구체적인 답변을 제공하기 위해 설계된 혁신적인 도구입니다. Google DeepMind 팀은 이 기능을 통해 사용자가 더 스마트하게, 더 빠르게 정보를 얻을 수 있도록 돕고자 합니다. 앞으로 딥 리서치가 어떤 방향으로 발전할지 기대됩니다!

"우리는 이 기능을 'Gemini Deep Dive'라고 부를 뻔했지만, 지금의 이름이 훨씬 더 잘 어울린다고 생각합니다. 감사합니다!" 😊