• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
  • AI漫剧创作热门-AI社区
AI 对话

Search-o1:全新框架助力Qwen模型性能飞跃,斩获多项权威评测第一

Search-o1:全新框架助力Qwen模型性能飞跃,斩获多项权威评测第一
AI TOP100
2025-01-20 13:50:21

Search-o1:全新框架助力Qwen模型性能飞跃

人工智能领域再添新突破!由中国人民大学和清华大学联合研发的Search-o1框架,以其独特的Agentic搜索增强推理机制,让Qwen类模型在多项高难度评测中脱颖而出。该框架在博士级别的科学问答、数学及代码能力的11项评测中,一举斩获10项第一,展现出强大的实力。

研究团队指出,Qwen及同类模型在推理过程中虽表现出色,但存在“知识不足”的短板。当推理步骤过长或模型知识储备不足时,推理过程易受阻碍,导致推理链中的错误传递,最终影响答案的准确性。如何解决这一难题,成为提升大型推理模型可信度的关键所在。

Search-o1的创新之处

Search-o1的核心理念在于:当模型推理受阻时,暂停推理,转而进行知识检索,补充缺失的信息,然后再继续推理。 这与人类的思考方式极为相似。研究发现,Qwen类模型在处理复杂问题时,推理过程中会频繁出现不确定词汇,这不仅增加了推理的复杂性,也使得手动验证变得困难。

Search-o1框架融合了RAG(检索增强生成)技术,并引入了Reason-in-Documents模块,将Agentic搜索工作流无缝整合到推理过程中。通过自主知识检索,大幅提升了大型推理模型的可靠性和适用性。模型在遇到知识盲区时,能够主动检索外部信息,并保持推理过程的连贯性,从而实现推理能力的进阶。

经过广泛测试,Search-o1在科学、数学、编码等复杂推理任务以及开放领域问答基准测试中表现优异。该项目目前已开源,可在Hugging Face和GitHub上获取。Search-o1框架以开源的QwQ-32B-Preview模型为基础。

传统方法的局限性

长期以来,原生推理在遇到知识缺口时容易出错的问题一直困扰着研究者。许多团队尝试解决这一问题,例如,将策略和奖励模型与蒙特卡洛树搜索相结合,或在训练过程中引入错误推理路径,但这些方法都受限于对静态参数化模型的依赖,无法充分利用外部世界的知识。

基于RAG的检索机制,虽然能让模型访问外部知识,但检索到的文档可能包含大量冗余信息,干扰推理流程。因此,团队提出Search-o1的核心动机:通过自主检索增强推理能力。 Search-o1将推理模型与Reason-in-Documents模块和Agentic RAG机制紧密结合。

两大核心组件

Reason-in-Documents模块

Reason-in-Documents模块独立于主推理链,旨在解决Agentic RAG检索到的文档可能冗长且冗余的问题。该模块基于当前搜索查询、先前推理步骤和检索文档,生成中间推理序列,并提炼出与当前推理步骤高度相关的精炼知识,再将其整合到推理链中。输出格式为:“Final Information [精炼后的信息]”,或者“Final Information No helpful information found.”。这确保了推理过程的简洁性和连贯性。

Agentic RAG机制

Agentic RAG机制使模型在推理过程中,自主决定何时检索外部知识。在单问题推理时,模型会生成包含搜索查询的推理链。当检测到搜索查询结束符时,会触发检索函数,获取相关外部文档,然后将其交给Reason-in-Documents模块处理,再将结果整合回推理链。在批量推理时,Search-o1会对一批问题创建推理序列集,并行生成tokens,检索和精炼文档,更新推理链,提高处理多输入的效率。所有过程都可以反复进行,确保模型在整个推理过程中获得所需知识支持。

实验结果

为了验证Search-o1的有效性,研究人员进行了广泛的实验。评估任务包括复杂推理任务,如博士级别的科学问答(GPQA)、数学(MATH500、AMC2023、AIME2024)、代码(LiveCodeBench)等;以及开放域问答基准测试,包括单跳QA(如NQ、TriviaQA)和多跳QA(如HotpotQA、2WikiMultihopQA、MuSiQue、Bamboogle)等。

实验结果表明,在复杂推理任务中,Search-o1在11个测试集的10个任务上,均优于原生推理和传统RAG方法。在与人类专家的比较中,Search-o1在整体性能、物理学和生物学方面均超越人类专家,但在化学领域略逊一筹。在开放域问答基准测试中,Search-o1在多跳QA任务中表现突出,平均准确率提升近30%,优于所有基线模型,但在单跳任务上的提升不显著。

研究人员表示,Reason-in-Documents模块和Agentic RAG机制的结合,有效解决了模型自身知识不足的问题,增强了推理模型的可信度和实用性。在复杂问题解决场景中,Search-o1为更值得信赖和更高效的智能系统铺平了道路。网友对该框架“模拟人类认知过程”和“增强推理模型推理能力”表示肯定。

研究团队

Search-o1的通讯作者为中国人民大学高瓴人工智能学院教授窦志成。其他作者包括Xiaoxi Li,Guanting Dong, Jiajie Jin,Yuyao Zhang,Yujia Zhou,Yutao Zhu, Peitian Zhang。其中,Yujia Zhou是清华大学的博士后研究员,与清华大学科研院院长刘奕群合作。她在人大攻读博士期间,导师正是窦志成教授。

项目论文、代码和模型已开源,欢迎查阅。

更多AI行业最新资讯新闻信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html

0
0
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • Codex + HyperFrames正在吃掉剪辑行业 ,AI重构剪辑逻辑,新手也能实现高效出片

  • 字节跳动Doubao-Seed-2.0-lite发布:首款全模态理解模型登场

  • 月之暗面Kimi再获20亿美元融资:半年四轮、估值翻四倍、累计融资超376亿元

  • AI新势能漫剧正当红-2026AI短剧/漫剧生态发展交流会

  • 豆包四大版本权益全解析:付费时代,AI工具如何从“免费玩乐”转向“价值变现”

热点资讯

商汤开源SenseNova U1:去掉VE和VAE的"缝合怪",8B小模型跑出大模型效果

9天前
商汤开源SenseNova U1:去掉VE和VAE的"缝合怪",8B小模型跑出大模型效果

WorkBuddy深度集成腾讯文档:业内首个与主流文档产品打通的AI办公智能体

9天前
WorkBuddy深度集成腾讯文档:业内首个与主流文档产品打通的AI办公智能体

每日AI资讯-2026年5月07日

1天前
每日AI资讯-2026年5月07日

effie x 可灵AI2026 AIGC广告创作大赛邀请您共创

8天前
effie x 可灵AI2026 AIGC广告创作大赛邀请您共创

GPT Image 2登顶SuperCLUE文生图榜首:汉字生成93.07分,超越谷歌Nano Banana 2

9天前
GPT Image 2登顶SuperCLUE文生图榜首:汉字生成93.07分,超越谷歌Nano Banana 2
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有