Gemini Deep Research:谷歌AI研究助理深度评测
2023年12月,谷歌发布了Gemini Deep Research,一款旨在革新信息搜集与研究方式的AI工具。它本质上是一个AI助理,用户输入研究问题,它便能迅速展开搜索、规划、推理,最终生成一份详尽的报告。
Gemini Deep Research 功能升级亮点
今年,Gemini Deep Research迎来重大升级,其核心能力体现在以下三个方面:
首先,它能够将复杂的研究问题分解为多个子问题,逐个击破,从而简化研究流程。其次,它能从海量数据源中提取信息,分析数百个来源,确保研究的全面性。第三,速度极快,几分钟内即可生成一份包含计划、执行和总结的完整报告,并且支持超过45种语言。
虽然官方宣称提供免费试用,但实际体验中,免费账号功能受限。笔者通过第三方渠道获取Gemini Advanced账号后,才得以完整体验其功能。
访问Gemini官方网站,登录后,用户可以在界面左上角切换不同的AI模型。目前提供五种模型供选择。
2.0 Flash 适用于快速问答和简单任务处理;2.0 Flash Thinking 擅长分析复杂问题;Personalization 模型根据用户习惯调整回答;2.0 PRO(Experimental)是仍在测试的高级版本,更适合专业人士。
Gemini Deep Research 深度研究功能实测
接下来重点体验Gemini Deep Research的核心功能:深度研究。
在Gemini Deep Research中输入问题:“帮我写一个关于Gemini Deep Research的深度研究报告。”
系统迅速生成了一份研究方案,方案包含7个关键内容,条理清晰,具体如下:
第一步,整理Gemini Deep Research的官方资料;第二步,分析该工具的应用场景及其主要特点;第三步,搜集用户评价,了解用户体验的优缺点;第四步,收集专业人士的测评和分析,评估其专业价值。
第五步,寻找与Gemini Deep Research类似的工具,进行对比分析,明确其竞争优势和不足;第六步,研究实际应用案例,评估其在解决实际问题中的表现。
最后一步,深入探讨该工具的技术原理,评估数据的可靠性和准确性,并将其置于更广泛的学术背景下,评估其在整个领域中的地位和未来发展潜力。
方案生成后,系统会询问用户是否认可该方案,确认后即可启动研究。
从研究框架来看,Gemini Deep Research的方案设计确实比个人考虑得更全面。它不仅提供背景资料,还包含优劣势分析、专业人士测评、工具对比以及在更大背景下的评估。因此,这更像是一份精简但完整的工具测评报告。
Gemini Deep Research 工作流程解析
确认方案后,Gemini Deep Research便开始工作。
初始阶段,它从ZDNet、YouTube.com、SearchEngineJournal、Google、播客以及WorkspaceUpdates.Google等7个网站搜集资料。
这些网站可能提供关于Google Gemini的基础信息、使用教程、新闻报道或用户支持等内容。
在资料搜集过程中,笔者发现Gemini Deep Research能够清晰地整理核心功能、关键特点和技术亮点。
随后,它进入下一阶段:
从更多渠道收集信息。它访问了Reddit、How-To Geek、SectionSchool、Google官方页面以及SearchEngineJournal。
选择这些网站,主要是为了获取以下几类信息:
首先是用户讨论和评价,了解用户的真实使用体验。笔者随机打开几个Reddit页面,发现它不仅抓取了文章内容,还提取了评论。
这些评论往往反映了用户的真实感受,具有很高的参考价值。
其次是教程和学习资料。How-To Geek和SectionSchool等网站提供详细的使用指南和教学资源。
第三类是官方信息;最后一类是专业分析和评价。SearchEngineJournal专注于SEO和数字营销,汇集了大量专业人士对工具的深入分析和评测。
因此,这一步旨在全面收集用户反馈、专业解读、使用教程和官方公告,从而使用户能够从不同角度了解Google Gemini。
然后,系统总结了三个重点:
用户评价褒贬不一,普遍赞赏其节省时间、快速了解主题或生成初步报告的能力。不过,也有用户担心信息来源的可靠性问题,认为工具在判断信息来源方面有所欠缺,有时生成的信息过于泛泛,不够深入。此外,还有用户反映工具会突然中断,导致研究失败。
在工具对比方面,用户将Gemini Deep Research与Perplexity、DeepSeek进行了比较。
部分用户认为Perplexity在叙事和细节挖掘方面更胜一筹,而DeepSeek的新模型在研究质量和速度上表现最佳。甚至有用户认为,在某些情况下,ChatGPT能够提供更高质量的研究结果。这些对比表明,Deep Research在某些方面仍有提升空间。
通过详细拆解,可以发现这些细节对商业分析很有帮助。毕竟,其他人对Deep Research的看法是他们的本地知识。
Gemini Deep Research 专业知识挖掘
在第三步研究中,Gemini Deep Research开始寻找更专业的知识。
推荐的9个网站与第二步有所不同,更关注提高工作效率的工具、人工智能研究以及战略和市场分析等内容。
这些网站相对权威,提供技术支持文档、新闻博客、社交讨论和专业教程等各种信息。
这些网站是对之前研究的补充,在分析优缺点的基础上,现在要寻找更专业、更深入的信息。
因此,系统给出的结论是:Deep Research功能强大,但在准确性方面有待提高;同时,Gemini 2.0的深度思考模型是一项重要的升级。
接下来第四步、第五步和第六步,步骤大致相同。主要关注以下三个方面:
- 专家评价。
- 实际应用案例。
- 技术原理和数据来源。
这个过程就像从不同角度寻找问题的答案和评价。
得出的结论也比较清晰。专家们认为该工具具有潜力,特别是在升级到Gemini 2.0 Flash Thinking Experimental模型后,规划、搜索、推理和报告能力都得到提升。
专家还指出,该工具的免费开放是一大优势,但信息来源的可靠性、准确性以及避免生成不实内容等方面仍需改进。
然而,在实际案例部分,并未给出具体的应用示例,只是提出了一些问题。
例如:处理需要专业知识或最新信息的复杂主题时,表现如何?生成的报告是否准确、深入、有用?
对于这些问题,并未给出明确的回答。
此外,技术原理和数据来源部分也缺乏清晰的对比。虽然提供的网站包含一些技术对比内容,但并未很好地展示这些信息,略显仓促。
后面的步骤不够细致,有些草率。特别是在专家分析、实际案例部分,应该制作表格,将对比结果清晰地展示出来,这样才能更清楚地展示Gemini 2.0深度研究与其他深度研究能力的对比,从而更具说服力,也更容易理解。
第七步是:学术信息搜集。
系统对学术研究表现出浓厚的兴趣,搜索了27个学术网站,希望找到与深度研究相关的文献以及AI在学术界的应用信息。
最终得出的结论过于匆忙,只是简单提及开发团队训练的模型能够很好地进行计划,并设计了一个任务管理器。这都是显而易见的信息,希望能看到更深入的研究结果。
例如:
- 如何提高模型的准确性?
- 有哪些具体的改进方法?
- 需要哪些技术能力?
- 如何优化架构?
学术信息搜集完成后,系统突然提示需要修正语法错误,以便获取最新信息。
这意味着,在使用搜索工具获取信息时,可能存在遗漏,不够完善;换句话说,其表现尚不稳定,甚至因为技术上的小问题,影响了最终结果的质量。
Gemini Deep Research 报告质量分析
最终生成的报告长达8700字。
去除不太重要的内容,核心部分集中在用户体验和反馈。这部分研究深入,详细列出了优缺点,甚至使用了表格进行对比,非常直观。
另一个亮点是,详细对比分析了自家工具和其他人工智能研究工具。这部分内容实用,能够清晰地展示其优势和不足。
至于技术分析和学术研究部分,略显理论化,堆砌术语,实际参考价值不大,读起来像“八股文”。
值得注意的是,在8700字的报告中,引用了28个链接,链接占用了约1000字的篇幅。去除这1000字,再加上开头和结尾的常规内容,真正有价值的信息还剩多少?
总的来说,有以下几点评价:
第一,与国内产品(如Kimi、Qwen、豆包、夸克)相比,Gemini Deep Research绝对领先。它能够生成如此长的报告,还能调动多种能力,从用户体验上来说,国内很多产品目前还做不到这一点。它的综合表现更胜一筹。
第二,记忆能力和处理长文本的能力较强。相比之下,国内一些产品在生成报告时,后半部分会显得比较随意,有些草率。
当然,Gemini的深度搜索也存在类似的问题,但没有国内产品那么严重,整体表现依然更稳定。
第三,与Manus相比,在工具调用方面仍有不足。Manus能够生成PDF,可视化能力也很强。Gemini Deep Research在这方面就显得逊色,最多提供一个类似Word文档的文件,里面带一个非常简单的表格。
在工具调用和功能扩展上,Gemini Deep Research显然还有提升的空间。
Gemini本周的密集更新使其在生态系统中的地位变得更重要,高频的优化和功能扩展也使其在竞争中占据了更有利的位置。
在AI To C领域的机遇中, Gemini自然不会错过。这种快速发展也给其他竞争对手带来了压力。