Search-o1：全新框架助力Qwen模型性能飞跃，斩获多项权威评测第一-AITOP100,AI资讯

Search-o1：全新框架助力Qwen模型性能飞跃

人工智能领域再添新突破！由中国人民大学和清华大学联合研发的Search-o1框架，以其独特的Agentic搜索增强推理机制，让Qwen类模型在多项高难度评测中脱颖而出。该框架在博士级别的科学问答、数学及代码能力的11项评测中，一举斩获10项第一，展现出强大的实力。

研究团队指出，Qwen及同类模型在推理过程中虽表现出色，但存在“知识不足”的短板。当推理步骤过长或模型知识储备不足时，推理过程易受阻碍，导致推理链中的错误传递，最终影响答案的准确性。如何解决这一难题，成为提升大型推理模型可信度的关键所在。

Search-o1的创新之处

Search-o1的核心理念在于：当模型推理受阻时，暂停推理，转而进行知识检索，补充缺失的信息，然后再继续推理。 这与人类的思考方式极为相似。研究发现，Qwen类模型在处理复杂问题时，推理过程中会频繁出现不确定词汇，这不仅增加了推理的复杂性，也使得手动验证变得困难。

Search-o1框架融合了RAG（检索增强生成）技术，并引入了Reason-in-Documents模块，将Agentic搜索工作流无缝整合到推理过程中。通过自主知识检索，大幅提升了大型推理模型的可靠性和适用性。模型在遇到知识盲区时，能够主动检索外部信息，并保持推理过程的连贯性，从而实现推理能力的进阶。

经过广泛测试，Search-o1在科学、数学、编码等复杂推理任务以及开放领域问答基准测试中表现优异。该项目目前已开源，可在Hugging Face和GitHub上获取。Search-o1框架以开源的QwQ-32B-Preview模型为基础。

传统方法的局限性

长期以来，原生推理在遇到知识缺口时容易出错的问题一直困扰着研究者。许多团队尝试解决这一问题，例如，将策略和奖励模型与蒙特卡洛树搜索相结合，或在训练过程中引入错误推理路径，但这些方法都受限于对静态参数化模型的依赖，无法充分利用外部世界的知识。

基于RAG的检索机制，虽然能让模型访问外部知识，但检索到的文档可能包含大量冗余信息，干扰推理流程。因此，团队提出Search-o1的核心动机：通过自主检索增强推理能力。 Search-o1将推理模型与Reason-in-Documents模块和Agentic RAG机制紧密结合。

两大核心组件

Reason-in-Documents模块

Reason-in-Documents模块独立于主推理链，旨在解决Agentic RAG检索到的文档可能冗长且冗余的问题。该模块基于当前搜索查询、先前推理步骤和检索文档，生成中间推理序列，并提炼出与当前推理步骤高度相关的精炼知识，再将其整合到推理链中。输出格式为：“Final Information [精炼后的信息]”，或者“Final Information No helpful information found.”。这确保了推理过程的简洁性和连贯性。

Agentic RAG机制

Agentic RAG机制使模型在推理过程中，自主决定何时检索外部知识。在单问题推理时，模型会生成包含搜索查询的推理链。当检测到搜索查询结束符时，会触发检索函数，获取相关外部文档，然后将其交给Reason-in-Documents模块处理，再将结果整合回推理链。在批量推理时，Search-o1会对一批问题创建推理序列集，并行生成tokens，检索和精炼文档，更新推理链，提高处理多输入的效率。所有过程都可以反复进行，确保模型在整个推理过程中获得所需知识支持。

实验结果

为了验证Search-o1的有效性，研究人员进行了广泛的实验。评估任务包括复杂推理任务，如博士级别的科学问答（GPQA）、数学（MATH500、AMC2023、AIME2024）、代码（LiveCodeBench）等；以及开放域问答基准测试，包括单跳QA（如NQ、TriviaQA）和多跳QA（如HotpotQA、2WikiMultihopQA、MuSiQue、Bamboogle）等。

实验结果表明，在复杂推理任务中，Search-o1在11个测试集的10个任务上，均优于原生推理和传统RAG方法。在与人类专家的比较中，Search-o1在整体性能、物理学和生物学方面均超越人类专家，但在化学领域略逊一筹。在开放域问答基准测试中，Search-o1在多跳QA任务中表现突出，平均准确率提升近30%，优于所有基线模型，但在单跳任务上的提升不显著。

研究人员表示，Reason-in-Documents模块和Agentic RAG机制的结合，有效解决了模型自身知识不足的问题，增强了推理模型的可信度和实用性。在复杂问题解决场景中，Search-o1为更值得信赖和更高效的智能系统铺平了道路。网友对该框架“模拟人类认知过程”和“增强推理模型推理能力”表示肯定。

研究团队

Search-o1的通讯作者为中国人民大学高瓴人工智能学院教授窦志成。其他作者包括Xiaoxi Li，Guanting Dong， Jiajie Jin，Yuyao Zhang，Yujia Zhou，Yutao Zhu， Peitian Zhang。其中，Yujia Zhou是清华大学的博士后研究员，与清华大学科研院院长刘奕群合作。她在人大攻读博士期间，导师正是窦志成教授。

项目论文、代码和模型已开源，欢迎查阅。

更多AI行业最新资讯新闻信息请关注AI 人工智能网站--AITOP100平台--AI资讯专区：https://www.aitop100.cn/infomation/index.html