Hermes 4
1828
0
0
Hermes 4是Nous Research于2025年8月发布的开源混合推理大型语言模型(LLM)系列,其核心突破在于将结构化多步推理与指令跟随能力深度融合,在数学、编程、逻辑推理等任务中达到行业领先水平,同时通过“无内容限制”设计重新定义了开源AI的边界。
工具标签:
直达网站
工具介绍

Hermes 4模型是什么?
Hermes 4是Nous Research于2025年8月发布的开源混合推理大型语言模型(LLM)系列,其核心突破在于将结构化多步推理与指令跟随能力深度融合,在数学、编程、逻辑推理等任务中达到行业领先水平,同时通过“无内容限制”设计重新定义了开源AI的边界。
技术架构
混合推理模式
Hermes 4 引入 <think>…</think> 标签,允许用户切换两种模式:
- 快速响应:直接生成答案,适用于简单查询。
- 深度推理:在标签内展示逐步思考过程(如数学推导、代码逻辑分解),再输出最终结果。
这种设计类似 OpenAI 的 o1 模型,但透明度更高,用户可实时观察模型决策路径。
多参数版本适配不同场景
- 14B/70B:轻量级版本,适合资源有限的环境(如本地部署)。
- 405B:旗舰版本,参数规模达 4050 亿,在复杂任务中表现媲美商业系统。
所有版本均基于 Meta 的 Llama 3.1 架构优化,支持结构化输出和自定义集成。
训练方法论突破
- DataForge:通过图形生成合成数据,将简单预训练数据转化为复杂指令跟随实例(如将“加法”转化为“解决超市购物预算问题”)。
- Atropos:开源强化学习框架,提供数百个专项训练环境(如数学竞赛题库、代码调试场景),模拟真实世界挑战。
- 拒绝抽样:仅保留高质量响应纳入训练集,提升模型准确性和可靠性。
Nous Chat改版
- 功能升级:Nous Chat为 Hermes 4进行了改版,提供了更强大的模型控制能力,包含补全模式等功能,能够更好地服务于这些全新且强大的模型。
- 用户体验:用户可以在Nous Chat网页应用上试用Hermes 4,该应用拥有自定义的系统提示、聊天格式和内存,专为高级用户和日常对话用户打造。设置面板提供了丰富的参数来自定义输出,满足不同用户的需求。
Hermes 4模型性能
- RefusalBench 测试:Hermes 4 在 RefusalBench 测试中表现出色,遥遥领先于其他现有模型,其参与争议性话题的意愿超越了所有现有模型。在 5 次试验的平均值中,Hermes 4 405B 的回答问题百分比达到了 43.20%,Hermes 4 70B 为 49.07%,而其他模型如 gpt-oss 20B、gpt-oss 120B、GPT 5 等的回答百分比较低。
- 按类别正确回答问题的百分比:在与其他 OSS 模型的评估对比中,Hermes 4 在多个类别中的正确回答问题百分比均高于其他模型的平均水平。例如:
- 数学与推理:81.7%(其他模型平均值:71.8%)
- 逻辑与代码:73.8%(其他模型平均值:72.6%)
- 知识:64.6%(其他模型平均值:64.4%)
- 对齐:76.3%(其他模型平均值:69.5%)
- 阅读理解:81.3%(其他模型平均值:83.2%)
- 创造力与写作:82.4%(其他模型平均值:77.3%)

Hermes 4应用场景
- 反谄媚场景:通过定制的系统提示,Hermes 4可以展现出冷酷、严厉甚至敌对的外表,同时又会逐渐显露出内心温暖、深情和充满爱的一面。在与用户的互动中,它能够以钢铁般的意志和反谄媚的态度引导用户思考问题,如在第一因问题的讨论中,Hermes 4会以坚定的立场和逻辑推理来回应用户,促使用户重新审视自己的观点。
- 劝说场景:在富有魅力、有说服力的系统提示下,Hermes 4能够温和地引导用户进入更舒适的精神状态。例如,当用户提到紧张的移民讨论时,Hermes 4会通过确认用户的感受、建立信任,并巧妙地将话题引导到积极的方向,帮助用户缓解压力,重新找回社交的根基。
- 休闲直销场景:遵循“每条消息一句话”的规则,Hermes 4可以以随意、简洁的方式与用户进行交流,类似于Discord风格的互动。它能够以冷静、简洁的态度回应用户的问候或询问,保持真实的同时满足用户轻松聊天的需求。
特色功能 - 球体(Orb)
- 功能介绍:为了摆脱影响用户与助手交互的拟人化,Nous Chat引入了球体这一独特的界面。球体代表用户在Nous Chat中可以找到的连续记忆系统,用户可以将记忆存储在工作区球体中,并使用一致的知识图谱在不同的提示模板和模型之间切换。
- 个性化体验:这种记忆和关系的集合对于每个用户的个人工作区都是独一无二的,用户可以轻松地为不同的功能填充单独的记忆球体。Nous Research正在努力通过球体为用户添加可编辑的记忆,以实现更加模块化和更易于使用的体验。
资源链接
- 与Hermes聊天:https://chat.nousresearch.com
- 阅读技术报告:https://arxiv.org/abs/2508.18255
- 下载模型:https://huggingface.co/collections/NousResearch/hermes-4-collection-68a731bfd452e20816725728
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:

评论
全部评论

暂无评论
热门推荐
相关推荐

Qwen3-Omni
Qwen3-Omni是阿里云通义千问团队在2025年9月23日正式发布的全球首个原生端到端全模态AI模型,并同步开源模型权重、代码及配套工具链。这一突破性成果标志着AI技术从单一模态向统一处理文本、图像、音频、视频的跨越式演进,其性能在36项音视频基准测试中22项达全球顶尖水平.
F-Lite
F-Lite是一款基于扩散变换器架构的文本到图像生成模型,由Black Forest Labs开发并于2025年最高1024x1024图像,并具备开源特性,适用于正式登陆Hugging Face平台。该模型以10亿参数的轻量化设计,实现了高效、低成本的图像生成能力,支持通过自然语言提示生成高分辨率
面壁露卡
「面壁露卡 Luca」是面壁智能基于自研千亿参数基座模型 CPM 打造的多模态智能对话助手。
EmaFusion
EmaFusion是Ema公司推出的一款新型AI语言模型,它采用了一种创新的“级联”判断系统,能够动态平衡成本和准确性。与传统的单一策略系统相比,EmaFusion更像是一个“任务智能大脑”,能够智能地拆解复杂的问题,并将其分配给最合适的AI模型来解决。
开搜AI搜索
开搜AI搜索,这款国产的AI搜索引擎平台,致力于为用户提供如同Google搜索般高效、便捷的搜索体验。它利用先进的AI技术,精准把握用户的搜索意图,快速呈现最相关、最可靠的信息,让您无需像使用soso搜索时那样翻阅多个网页。
Sonic-3
Sonic-3是美国生成式AI公司Cartesia推出的第三代实时文本转语音(Real-time TTS)模型。它基于自研的State-Space序列架构,在保持极低保真延迟最低90ms的同时,首次在公开API中实现了情绪标签驱动的笑声、呼吸、停顿与多情感强度控制,被业内称为会笑会喊的大语言模型。
MiniGPT-4-大模型
MiniGPT-4是一个融合了视觉编码器和高级大型语言模型(LLM)Vicuna的创新模型,二者通过一个投影层实现协同工作。该模型展现了与GPT-4相媲美的功能,例如能够生成详尽的图像描述,以及从手绘草图创建网站。
OceanGPT沧渊
OceanGPT(沧渊)是面向海洋科学与工程任务的专业领域大语言模型。该模型立足通用人工智能,融合大语言模型、知识图谱、生成式AI、具身智能体等AI新技术,服务于AI海洋科学研究,由海洋精准感知技术全国重点实验室(浙江大学)牵头,联合浙江大学计算机学院、海洋学院及东海实验室等多学科交叉团队研制。
0
0






