Hermes 4
2454
0
0
Hermes 4是Nous Research于2025年8月发布的开源混合推理大型语言模型(LLM)系列,其核心突破在于将结构化多步推理与指令跟随能力深度融合,在数学、编程、逻辑推理等任务中达到行业领先水平,同时通过“无内容限制”设计重新定义了开源AI的边界。
工具标签:
直达网站
工具介绍

Hermes 4模型是什么?
Hermes 4是Nous Research于2025年8月发布的开源混合推理大型语言模型(LLM)系列,其核心突破在于将结构化多步推理与指令跟随能力深度融合,在数学、编程、逻辑推理等任务中达到行业领先水平,同时通过“无内容限制”设计重新定义了开源AI的边界。
技术架构
混合推理模式
Hermes 4 引入 <think>…</think> 标签,允许用户切换两种模式:
- 快速响应:直接生成答案,适用于简单查询。
- 深度推理:在标签内展示逐步思考过程(如数学推导、代码逻辑分解),再输出最终结果。
这种设计类似 OpenAI 的 o1 模型,但透明度更高,用户可实时观察模型决策路径。
多参数版本适配不同场景
- 14B/70B:轻量级版本,适合资源有限的环境(如本地部署)。
- 405B:旗舰版本,参数规模达 4050 亿,在复杂任务中表现媲美商业系统。
所有版本均基于 Meta 的 Llama 3.1 架构优化,支持结构化输出和自定义集成。
训练方法论突破
- DataForge:通过图形生成合成数据,将简单预训练数据转化为复杂指令跟随实例(如将“加法”转化为“解决超市购物预算问题”)。
- Atropos:开源强化学习框架,提供数百个专项训练环境(如数学竞赛题库、代码调试场景),模拟真实世界挑战。
- 拒绝抽样:仅保留高质量响应纳入训练集,提升模型准确性和可靠性。
Nous Chat改版
- 功能升级:Nous Chat为 Hermes 4进行了改版,提供了更强大的模型控制能力,包含补全模式等功能,能够更好地服务于这些全新且强大的模型。
- 用户体验:用户可以在Nous Chat网页应用上试用Hermes 4,该应用拥有自定义的系统提示、聊天格式和内存,专为高级用户和日常对话用户打造。设置面板提供了丰富的参数来自定义输出,满足不同用户的需求。
Hermes 4模型性能
- RefusalBench 测试:Hermes 4 在 RefusalBench 测试中表现出色,遥遥领先于其他现有模型,其参与争议性话题的意愿超越了所有现有模型。在 5 次试验的平均值中,Hermes 4 405B 的回答问题百分比达到了 43.20%,Hermes 4 70B 为 49.07%,而其他模型如 gpt-oss 20B、gpt-oss 120B、GPT 5 等的回答百分比较低。
- 按类别正确回答问题的百分比:在与其他 OSS 模型的评估对比中,Hermes 4 在多个类别中的正确回答问题百分比均高于其他模型的平均水平。例如:
- 数学与推理:81.7%(其他模型平均值:71.8%)
- 逻辑与代码:73.8%(其他模型平均值:72.6%)
- 知识:64.6%(其他模型平均值:64.4%)
- 对齐:76.3%(其他模型平均值:69.5%)
- 阅读理解:81.3%(其他模型平均值:83.2%)
- 创造力与写作:82.4%(其他模型平均值:77.3%)

Hermes 4应用场景
- 反谄媚场景:通过定制的系统提示,Hermes 4可以展现出冷酷、严厉甚至敌对的外表,同时又会逐渐显露出内心温暖、深情和充满爱的一面。在与用户的互动中,它能够以钢铁般的意志和反谄媚的态度引导用户思考问题,如在第一因问题的讨论中,Hermes 4会以坚定的立场和逻辑推理来回应用户,促使用户重新审视自己的观点。
- 劝说场景:在富有魅力、有说服力的系统提示下,Hermes 4能够温和地引导用户进入更舒适的精神状态。例如,当用户提到紧张的移民讨论时,Hermes 4会通过确认用户的感受、建立信任,并巧妙地将话题引导到积极的方向,帮助用户缓解压力,重新找回社交的根基。
- 休闲直销场景:遵循“每条消息一句话”的规则,Hermes 4可以以随意、简洁的方式与用户进行交流,类似于Discord风格的互动。它能够以冷静、简洁的态度回应用户的问候或询问,保持真实的同时满足用户轻松聊天的需求。
特色功能 - 球体(Orb)
- 功能介绍:为了摆脱影响用户与助手交互的拟人化,Nous Chat引入了球体这一独特的界面。球体代表用户在Nous Chat中可以找到的连续记忆系统,用户可以将记忆存储在工作区球体中,并使用一致的知识图谱在不同的提示模板和模型之间切换。
- 个性化体验:这种记忆和关系的集合对于每个用户的个人工作区都是独一无二的,用户可以轻松地为不同的功能填充单独的记忆球体。Nous Research正在努力通过球体为用户添加可编辑的记忆,以实现更加模块化和更易于使用的体验。
资源链接
- 与Hermes聊天:https://chat.nousresearch.com
- 阅读技术报告:https://arxiv.org/abs/2508.18255
- 下载模型:https://huggingface.co/collections/NousResearch/hermes-4-collection-68a731bfd452e20816725728
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:

评论
全部评论

暂无评论
热门推荐
相关推荐

讯飞星辰
讯飞星辰作为科大讯飞倾力打造的AI大模型定制训练平台,致力于为用户打造独一无二的专属大模型。该平台汇聚了超过20个在行业内广受认可的优质模型,诸如星火大模型、Llama3等,均在其列。更为便捷的是,讯飞星辰支持零代码微调功能,极大地降低了大模型精调的复杂性和门槛。
Flex.2-preview
Flex.2-preview是由Ostris团队发布的一款基于8亿参数的文本到图像扩散模型,专为集成到ComfyUI工作流设计。该模型在Hugging Face上开源,采用Apache2.0许可证,凭借其强大的控制能力与高效生成特性,迅速成为AI艺术创作社区的焦点。
Gemini 2.0 Flash Thinking
Gemini 2.0 Flash Thinking是谷歌推出的一款具有推理能力的智能助手模型,它基于先进的人工智能技术开发,旨在加速和简化复杂的思考过程。该模型不仅继承了Gemini 2.0系列的强大功能,还通过特别训练,能够在回答问题时展示其“思考过程”,为用户提供更深入、更透明的分析体验。
天工AI搜索
天工AI搜索 是由昆仑万维开发的一种AI搜索引擎,它融入了大语言模型的能力,提供智能、高效、快速的搜索体验。
火山方舟
火山方舟是火山引擎旗下的大模型服务平台,定位为面向企业提供全面的模型即服务(MaaS,Model-as-a- Service)解决方案。它汇聚百川智能、出门问问、复旦大学MOSS、IDEA研究院、澜舟科技、MiniMax、智谱AI等多家 AI 科技公司及科研院所的大模型,打破模型资源分散的局面。
Sec-Gemini v1
Sec-Gemini v1是谷歌基于其Gemini模型构建的一款全新AI安全模型。它集成了Gemini的先进推理能力,并结合了近乎实时的网络安全知识和工具,旨在帮助网络安全专业人员更有效地应对网络威胁,提升威胁情报分析、漏洞理解和事件响应的效率。
MAI-DS-R1
MAI-DS-R1是微软在DeepSeek-R1基础上进行魔改后推出的全新开源模型。它继承了DeepSeek-R1的推理性能,同时在响应敏感话题和降低安全风险方面进行了大幅度增强。这一模型旨在为用户提供更加智能、安全、多语言的AI交互体验。
CausVid
CausVid是一种基于自回归因果推理架构的AI视频生成模型,专为解决传统模型“生成速度慢、长视频质量差”的痛点而设计。由麻省理工学院计算机科学人工智能实验室(CSAIL)与 Adobe Research 联合研发,这一混合模型可以在几秒钟内生成高质量视频。
0
0






