在AI智能体(Agent)竞争愈发激烈的当下,月之暗面(Moonshot AI)今日重磅推出其备受瞩目的Kimi研究功能,正式加入这场“智能大战”。据说,该功能在多项基准测试里表现亮眼,尤其是在名为“人类终极考验”(Humanity's Last Exam,HLE)的测试中,直接超越谷歌和 OpenAI 的同类产品,一举拿下冠军宝座。
Kimi-Researcher:多轮搜索与推理的“高手”
Kimi研究功能的核心是Kimi-Researcher,这可是个擅长多轮搜索与推理的自主智能体。官方数据显示,在执行每个任务时,它平均会进行23个推理步骤,还会浏览超过200个网址,这强大的信息处理和分析能力,着实让人惊叹。
基准测试表现:HLE 登顶,实力超群
Kimi-Researcher是基于Kimi k-系列模型的内部版本构建的,并且完全通过 端到端的智能体强化学习(RL) 进行训练。在“人类终极考验”(HLE)测试中,它取得了 26.9% 的 Pass@1 得分率,达到了业界顶尖水平;Pass@4 准确率更是高达 40.17%。
值得一提的是,Kimi-Researcher的HLE初始得分仅为 8.6%,最终能达到 26.9% 的高分,几乎全是端到端强化学习训练的功劳。月之暗面表示,这充分证明了端到端智能体强化学习能极大地提升智能体的智能水平。
此外,Kimi-Researcher在多个复杂且具挑战性的真实世界基准测试中也表现出色。在xbench测试(一套全新的、动态的、与专业需求对齐的测试套件)的xbench-DeepSearch项目上,Kimi-Researcher取得了 69% 的 Pass@1(4 次运行平均值),表现比配备了搜索工具的 o3 等模型还要好。在针对多轮搜索推理(如 FRAMES、Seal-0)和事实性信息问答(如 SimpleQA)的基准测试中,它同样成绩优异。
开源计划与内测申请:福利来袭
月之暗面宣布,Kimi-Researcher将从今日起逐步向用户开放。现在,用户可以访问kimi官网申请内测,提前体验这款强大的智能体。更让人兴奋的是,未来几个月内,月之暗面将开源 Kimi-Researcher 背后的基础预训练模型以及经过强化学习训练后的模型,这无疑将为 AI 社区的发展做出重要贡献。
Kimi-Researcher 的推出,为AI智能体领域注入了新的活力。
未来,它或许会在更多场景中发挥作用,让我们拭目以待。