Search-o1:全新框架助力Qwen模型性能飞跃
人工智能领域再添新突破!由中国人民大学和清华大学联合研发的Search-o1框架,以其独特的Agentic搜索增强推理机制,让Qwen类模型在多项高难度评测中脱颖而出。该框架在博士级别的科学问答、数学及代码能力的11项评测中,一举斩获10项第一,展现出强大的实力。
研究团队指出,Qwen及同类模型在推理过程中虽表现出色,但存在“知识不足”的短板。当推理步骤过长或模型知识储备不足时,推理过程易受阻碍,导致推理链中的错误传递,最终影响答案的准确性。如何解决这一难题,成为提升大型推理模型可信度的关键所在。
Search-o1的创新之处
Search-o1的核心理念在于:当模型推理受阻时,暂停推理,转而进行知识检索,补充缺失的信息,然后再继续推理。 这与人类的思考方式极为相似。研究发现,Qwen类模型在处理复杂问题时,推理过程中会频繁出现不确定词汇,这不仅增加了推理的复杂性,也使得手动验证变得困难。
Search-o1框架融合了RAG(检索增强生成)技术,并引入了Reason-in-Documents模块,将Agentic搜索工作流无缝整合到推理过程中。通过自主知识检索,大幅提升了大型推理模型的可靠性和适用性。模型在遇到知识盲区时,能够主动检索外部信息,并保持推理过程的连贯性,从而实现推理能力的进阶。
经过广泛测试,Search-o1在科学、数学、编码等复杂推理任务以及开放领域问答基准测试中表现优异。该项目目前已开源,可在Hugging Face和GitHub上获取。Search-o1框架以开源的QwQ-32B-Preview模型为基础。
传统方法的局限性
长期以来,原生推理在遇到知识缺口时容易出错的问题一直困扰着研究者。许多团队尝试解决这一问题,例如,将策略和奖励模型与蒙特卡洛树搜索相结合,或在训练过程中引入错误推理路径,但这些方法都受限于对静态参数化模型的依赖,无法充分利用外部世界的知识。
基于RAG的检索机制,虽然能让模型访问外部知识,但检索到的文档可能包含大量冗余信息,干扰推理流程。因此,团队提出Search-o1的核心动机:通过自主检索增强推理能力。 Search-o1将推理模型与Reason-in-Documents模块和Agentic RAG机制紧密结合。
两大核心组件
Reason-in-Documents模块
Reason-in-Documents模块独立于主推理链,旨在解决Agentic RAG检索到的文档可能冗长且冗余的问题。该模块基于当前搜索查询、先前推理步骤和检索文档,生成中间推理序列,并提炼出与当前推理步骤高度相关的精炼知识,再将其整合到推理链中。输出格式为:“Final Information [精炼后的信息]”,或者“Final Information No helpful information found.”。这确保了推理过程的简洁性和连贯性。
Agentic RAG机制
Agentic RAG机制使模型在推理过程中,自主决定何时检索外部知识。在单问题推理时,模型会生成包含搜索查询的推理链。当检测到搜索查询结束符时,会触发检索函数,获取相关外部文档,然后将其交给Reason-in-Documents模块处理,再将结果整合回推理链。在批量推理时,Search-o1会对一批问题创建推理序列集,并行生成tokens,检索和精炼文档,更新推理链,提高处理多输入的效率。所有过程都可以反复进行,确保模型在整个推理过程中获得所需知识支持。
实验结果
为了验证Search-o1的有效性,研究人员进行了广泛的实验。评估任务包括复杂推理任务,如博士级别的科学问答(GPQA)、数学(MATH500、AMC2023、AIME2024)、代码(LiveCodeBench)等;以及开放域问答基准测试,包括单跳QA(如NQ、TriviaQA)和多跳QA(如HotpotQA、2WikiMultihopQA、MuSiQue、Bamboogle)等。
实验结果表明,在复杂推理任务中,Search-o1在11个测试集的10个任务上,均优于原生推理和传统RAG方法。在与人类专家的比较中,Search-o1在整体性能、物理学和生物学方面均超越人类专家,但在化学领域略逊一筹。在开放域问答基准测试中,Search-o1在多跳QA任务中表现突出,平均准确率提升近30%,优于所有基线模型,但在单跳任务上的提升不显著。
研究人员表示,Reason-in-Documents模块和Agentic RAG机制的结合,有效解决了模型自身知识不足的问题,增强了推理模型的可信度和实用性。在复杂问题解决场景中,Search-o1为更值得信赖和更高效的智能系统铺平了道路。网友对该框架“模拟人类认知过程”和“增强推理模型推理能力”表示肯定。
研究团队
Search-o1的通讯作者为中国人民大学高瓴人工智能学院教授窦志成。其他作者包括Xiaoxi Li,Guanting Dong, Jiajie Jin,Yuyao Zhang,Yujia Zhou,Yutao Zhu, Peitian Zhang。其中,Yujia Zhou是清华大学的博士后研究员,与清华大学科研院院长刘奕群合作。她在人大攻读博士期间,导师正是窦志成教授。
项目论文、代码和模型已开源,欢迎查阅。
更多AI行业最新资讯新闻信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html








