《TechCrunch》报导,AI战场又有新进化了,比资本越雄厚,也比工程师能力。Google 于上周推出「重新想像版」的研究代理 Gemini Deep Research,核心基于最新模型 Gemini 3 Pro。这项更新不只强化研究报告产出能力,也让开发者能把 Google 的研究型 AI 能力,直接嵌入自家应用程式。
Google 表示,这项能力是透过全新的互动API,目标是在「代理式 AI(agentic AI)」时代,让开发者能拥有更高的控制权。
新版 Gemini Deep Research 是一款能整合大量资讯、并处理超大脉络输入的研究型代理。Google 指出,目前已有客户将其用于调查、药物毒性与安全性研究等任务。
Google 也透露,未来将把这套深度研究代理整合进多项自家服务,包括 Google Search、Google Finance、Gemini App,以及广受欢迎的 NotebookLM。这被视为迈向一个「人类不再亲自 Google,而是由 AI 代理代劳」的世界的重要一步。
Google 强调,Deep Research 受益于 Gemini 3 Pro 被定位为「目前最具事实准确性」的模型,并特别针对复杂任务降低 AI 幻觉风险进行训练。
所谓 AI 幻觉,是指大型语言模型在没有依据的情况下「自行编造内容」。对于需要长时间运作、涉及深度推理与多次自主决策的代理式任务来说,这是一个特别严重的问题。模型每多做一次选择,就多一分可能因单一错误而让整个结果失效。
为了佐证其技术进展,Google 也推出了一个全新的评测基准,名为 DeepSearchQA,用来测试 AI 代理在复杂、多步骤资讯搜寻任务中的表现,并已将该基准开源。
此外,Google 也让 Deep Research 参与其他独立评测,包括名为 Humanity’s Last Exam 的通识测验基准,以及专门评估浏览器代理任务的 BrowserComp。
如外界预期,Google 的新代理在自家基准与 Humanity’s Last Exam 中表现最佳;不过,OpenAI 的 ChatGPT 5 Pro 紧追在后,整体差距不大,并在 BrowserComp 上小幅胜过 Google。
然而,这些比较结果几乎在公布当天就显得过时,因为 OpenAI 同日推出了备受期待的 GPT 5.2,代号「Garlic」。OpenAI 宣称,最新模型在多项主流基准测试中全面超越竞争对手,特别是 Google。
报导指出,这次发布时机本身也耐人寻味。在全球目光聚焦于 Garlic 即将登场之际,Google 选择同步释出自家 AI 重要进展,意味著 AI 竞赛的节奏,正变得愈来愈快。
點擊閱讀下一則新聞