🎥 영상 개요
이 영상은 Google DeepMind의 Mukund Sridhar와 Aarush Selvan이 딥 리서치(Deep Research)라는 기능의 작동 원리와 개발 과정에서의 도전 과제, 그리고 앞으로의 발전 가능성에 대해 설명하는 내용입니다. 딥 리서치는 사용자가 웹을 탐색하지 않아도 개인 맞춤형 리서치 에이전트가 대신 정보를 수집하고 종합적인 보고서를 생성해주는 도구입니다. 이 기능은 특히 Gemini라는 Google의 AI 플랫폼에서 제공되며, 사용자가 복잡한 질문에 대해 더 깊이 있는 답변을 받을 수 있도록 설계되었습니다.
🧠 딥 리서치의 탄생 배경
1. 왜 딥 리서치를 만들었는가?
- 목표: 사람들이 빠르게 스마트해질 수 있도록 돕는 것.
- Gemini 사용 사례 중 리서치와 학습 관련 쿼리가 상위권을 차지했지만, 기존 챗봇은 복잡한 질문에 대해 표면적인 답변만 제공하는 한계가 있었습니다.
- 예시 질문: "투포환(shot put) 장학금을 받으려면 어떻게 해야 하나요?"
- 기존 챗봇의 답변: "코치와 상담하세요", "던질 수 있는 거리를 확인하세요", "성적을 유지하세요."
- 문제점: 사용자가 원하는 것은 구체적인 정보(예: 필요한 거리, 성적 기준 등)였지만, 챗봇은 일반적인 가이드라인만 제공.
"우리가 원했던 것은 단순한 청사진이 아니라, 정말로 종합적이고 구체적인 답변이었습니다."
2. 딥 리서치의 접근 방식
- 제약 제거: 컴퓨팅 리소스와 지연 시간의 제약을 없애고, Gemini가 필요한 만큼 웹을 탐색하도록 설계.
- 시간 제한: 그러나 현실적으로 5분 이내에 결과를 제공해야 하는 제약이 존재.
🛠️ 딥 리서치 개발 과정에서의 도전 과제
1. 비동기적 경험 설계
- Gemini는 본래 동기적(즉각적인 응답)으로 작동하는 챗봇이지만, 딥 리서치는 비동기적(시간이 걸리는 작업)으로 작동해야 했습니다.
- 사용자에게 기대치를 설정하는 것이 중요:
- 딥 리서치는 복잡한 리서치에 적합하지만, 단순한 질문(예: "오늘 날씨는?")에는 적합하지 않음.
"딥 리서치는 단순한 챗봇이 아니라, 사용자를 위한 맞춤형 리서치 에이전트입니다."
2. 긴 출력물과 사용자 경험
- 딥 리서치의 결과는 수천 단어에 달할 수 있습니다. 이를 사용자들이 쉽게 읽고 상호작용할 수 있도록 설계해야 했습니다.
- 해결책:
- 리서치 플랜 카드: 사용자가 리서치 시작 전에 계획을 검토하고 수정할 수 있도록 제공.
- 실시간 진행 상황 표시: Gemini가 탐색 중인 웹사이트를 실시간으로 보여줌.
- 아티팩트 핀 기능: 사용자가 특정 정보를 고정하고, 관련 질문을 바로 할 수 있도록 지원.
🔍 딥 리서치의 작동 방식
1. 리서치 플랜 생성
- 사용자가 질문을 입력하면, Gemini는 먼저 리서치 플랜을 생성하여 사용자에게 제시.
- 사용자는 이 플랜을 검토하고 수정 가능.
"좋은 분석가처럼, Gemini는 바로 작업에 들어가지 않고 먼저 계획을 보여줍니다."
2. 웹 탐색 및 정보 수집
- Gemini는 웹사이트를 탐색하며 정보를 수집하고, 이를 실시간으로 사용자에게 보여줌.
- 사용자는 탐색 중인 웹사이트를 클릭해 내용을 확인할 수 있음.
- 일부 사용자는 탐색한 웹사이트 수를 늘리기 위해 실험적으로 수천 개의 웹사이트를 탐색하도록 시도하기도 함.
3. 종합 보고서 생성
- 최종적으로 수집된 정보를 바탕으로 종합적인 보고서를 생성.
- 보고서는 사용자가 스타일을 변경하거나 섹션을 추가/삭제할 수 있도록 유연하게 설계됨.
- 출처 투명성: 사용된 모든 출처를 명시하고, Google Docs로 내보낼 때는 인용 형식으로 제공.
🚧 기술적 도전 과제
1. 장시간 작업의 안정성
- 딥 리서치는 여러 분산된 서비스와 상호작용하며 작업을 수행하기 때문에, 중간 실패에 대비한 복구 메커니즘이 필요.
- 상태 관리와 오류 복구가 핵심.
2. 계획 및 정보 처리
- 모델은 병렬적으로 처리할 수 있는 작업과 순차적으로 처리해야 하는 작업을 구분해야 함.
- 부분 정보 처리:
- 예: D1 디비전의 투포환 기준은 찾았지만, D2와 D3 디비전의 기준은 추가로 찾아야 함.
- 여러 출처에서 정보를 조합해 완전한 답변을 생성.
"모델은 발견한 정보를 기반으로 다음 단계를 계획하고, 불완전한 정보를 보완해야 합니다."
3. 웹 환경의 소음 처리
- 웹은 정보가 분산되어 있고, 레이아웃이 다양하기 때문에 탐색이 어려움.
- 강력한 브라우징 메커니즘이 필수.
4. 컨텍스트 관리
- 사용자가 후속 질문을 하거나 새로운 주제를 추가할 경우, 컨텍스트 크기가 급격히 증가.
- 해결책:
- 최신 작업과 이전 작업의 정보를 선택적으로 저장.
- 오래된 정보는 리서치 노트로 저장해 필요 시 참조 가능.
🌟 딥 리서치의 미래
1. 전문성 강화
- 현재 딥 리서치는 맥킨지 분석가 수준의 정보를 제공하지만, 미래에는 맥킨지 파트너 수준으로 발전할 가능성.
- 단순 정보 수집을 넘어, 의미 있는 통찰과 패턴을 도출하는 방향으로 진화.
2. 다양한 도메인 확장
- 과학, 금융, 법률 등 전문 분야에서 활용 가능.
- 예: 논문을 읽고 가설을 세우거나, 금융 모델을 생성.
3. 멀티모달 기능 통합
- 텍스트 기반 리서치뿐만 아니라, 코딩, 데이터 분석, 비디오 생성 등 다양한 기능과 결합.
- 예: 기업 실사를 수행할 때, 통계 분석과 재무 모델링을 자동으로 수행.
"우리는 딥 리서치가 단순한 도구를 넘어, 사용자의 진정한 동반자가 되기를 바랍니다."
🎉 마무리
딥 리서치는 복잡한 질문에 대해 종합적이고 구체적인 답변을 제공하기 위해 설계된 혁신적인 도구입니다. Google DeepMind 팀은 이 기능을 통해 사용자가 더 스마트하게, 더 빠르게 정보를 얻을 수 있도록 돕고자 합니다. 앞으로 딥 리서치가 어떤 방향으로 발전할지 기대됩니다!
"우리는 이 기능을 'Gemini Deep Dive'라고 부를 뻔했지만, 지금의 이름이 훨씬 더 잘 어울린다고 생각합니다. 감사합니다!" 😊