免费o1替代品震撼登场 Gemini 2.0 Flash Thinking-AITOP100,AI资讯

谷歌重磅推出“王炸”推理大模型在 OpenAI“12 天马拉松”式发布的进程中，其第 11 天的平淡发布再度被谷歌抢镜。就在此刻，谷歌正式发布实验性的“Gemini 2.0 Flash Thinking”模型。此模型凭借卓越非凡的推理能力声名远扬，它能够通过“清晰展示自身思维过程”来化解复杂难题，其推理水准与物理、化学以及生物学专业的博士生不相上下。

谷歌首席执行官 Sundar Pichai 在社交平台 X 上发文宣称，这是“我们迄今为止最为精妙的模型”，并附上了一个笑脸表情。正如其名，该模型建立于“2.0 Flash 的速度与性能”之上。谷歌方面表示，它经过专门训练从而能够“边思考边作答”，进而具备更为强劲的推理性能。

为与 OpenAI 的 o1 一较高下，谷歌 DeepMind 首席科学家 Jeff Dean 在 X 平台的一条动态中提及，此模型“在训练过程中借助思维来强化其推理能力”，同时还充分得益于速度更快的 Gemini Flash 2.0 模型。

Dean 所分享的演示清晰呈现了 Gemini 2.0 Flash Thinking 如何通过“深思熟虑”一系列步骤，随后给出物理问题的解决方案。谷歌也展示了多个跨越物理与概率领域的演示案例：

Gemini 2.0 Flash Thinking 现已在 Google AI Studio 与 Vertex AI 平台上线。其在 Chatbot Arena LLM 排行榜上初次亮相便荣登“全类别榜首”。

就在昨日，谷歌于 Gemini 应用程序中推出 2.0 Experimental Advanced，而 Gemini - Exp - 1206 同样在排行榜上独占鳌头。这虽并非人类传统意义上的“推理”，但却意味着机器能够将指令拆解为可产生更优结果的细分任务。另一个由谷歌产品负责人 Logan Kilpatrick 发布的示例，展示了该模型如何通过推理来解决涉及视觉与文本元素的问题。Kilpatrick 称：“这仅仅是我们推理探索之旅的开端。”

推理过程更易懂且更透明

在开发者文档里，谷歌阐释道，“思考模式下的响应推理能力相较基础版 Gemini 2.0 Flash 模型更为强大”，而基础版 Gemini 2.0 Flash 模型是谷歌于 8 天前才发布的最新且出色的模型。

新模型仅支持 32000 个标记输入（约 50 - 60 页文本），并且每个输出响应可生成 8000 个标记。在 Google AI Studio 的侧边栏中，谷歌宣称其最适用于“多模态理解、推理”以及“编码”。

该模型的训练流程、架构、许可条款以及成本详情尚未完全公布。当前，其在 Google AI Studio 中显示每个令牌的成本为零。与 OpenAI 的竞争推理模型 o1 和 o1 mini 有所不同，Gemini 2.0 允许用户借助下拉菜单查看其逐步推理过程，这使得用户能够更为清晰、透明地知晓模型得出结论的方式。

通过让用户洞悉决策流程，Gemini 2.0 成功化解了人们长期以来对人工智能如同“黑匣子”般运作的担忧，并且使其（尽管许可条款仍不明确）能够与其他竞争对手的开源模型相媲美。

部分开发者对该模型进行的早期简易测试表明，它能够迅速（1 到 3 秒内）且准确地回答一些对其他 AI 模型颇具挑战性的问题，例如计算“Strawberry”一词中字母“R”的数量。

原生支持图像上传与分析

Gemini 2.0 Flash Thinking 是对竞争对手 OpenAI o1 系列的又一次重大超越，其旨在处理图像相关任务。

o1 起初为纯文本模型，而后才拓展至涵盖图像与文件上传分析功能。当下，这两款模型均仅能返回文本。依据开发者文档显示，Gemini 2.0 Flash Thinking 目前尚不支持与谷歌搜索对接，也无法与其他谷歌应用以及外部第三方工具进行集成。

Gemini 2.0 Flash Thinking 的多模态能力拓宽了其潜在应用场景，使其能够应对整合不同类型数据的复杂情形。

例如，在一次测试中，该模型成功解决了一个需同时分析文本与视觉元素的难题，充分彰显了其跨格式整合与推理的多元性与灵活性。开发人员可借助 Google AI Studio 和 Vertex AI 平台运用这些功能，在这些平台上模型可供实验性使用。

总结：

伴随人工智能领域竞争愈发白热化，Gemini 2.0 Flash Thinking 或许预示着问题解决模型新时代的开启。其具备处理多种数据类型、提供可视化推理以及大规模执行任务的能力，这使其成为推理人工智能市场中强有力的竞争者，足以与 OpenAI 的 o1 系列及其他同类产品一争高下。