• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI音乐
    AI对口型
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI漫剧创作热门-AI社区
AI 对话

阿里巴巴开源推理大模型QwQ-32B:强化学习赋能,低成本高性能

阿里巴巴开源推理大模型QwQ-32B:强化学习赋能,低成本高性能
AI TOP100
2025-03-06 11:22:03

阿里巴巴推出QwQ-32B开源推理大模型

阿里巴巴旗下的Qwen团队近日发布了其最新的开源大型语言模型(LLM)家族成员——QwQ-32B。这款拥有320亿参数的推理模型,通过整合强化学习(RL),显著提升了在复杂问题解决任务上的性能,为AI领域带来了新的突破。

开源协议与应用场景

QwQ-32B已在Hugging Face和ModelScope上以 Apache2.0许可证开源。这意味着无论是商业机构还是研究人员,都可以免费使用该模型,并将其应用于产品和应用中,甚至包括收费服务。个人用户也能通过Qwen Chat体验其强大功能,推动AI技术的普及。

QwQ系列:推理能力的持续进化

QwQ,全称Qwen-with-Questions,是阿里巴巴于2024年11月推出的开源推理模型系列。该系列致力于通过在推理过程中审查和改进自身答案来增强逻辑推理和规划能力,尤其在数学和编码任务中表现出色。QwQ-32B的发布,标志着该系列在推理能力上的又一次重要升级。

性能提升与挑战应对

早期的QwQ模型拥有320亿参数和32,000tokens的上下文长度,并在AIME和MATH等数学基准测试以及GPQA等科学推理任务中超越了OpenAI的o1-preview。然而,在LiveCodeBench等编程基准测试中,旧版本QwQ表现相对较弱,并且面临语言混合和循环论证等问题。QwQ-32B的推出,旨在解决这些挑战,进一步提升整体性能。

开放生态与推理模型的未来

阿里巴巴选择以Apache2.0许可证发布QwQ-32B,使其与专有模型形成鲜明对比,赋予开发者和企业更大的自由度。随着AI领域的发展,传统LLM的局限性日益显现,大规模扩展带来的性能提升逐渐减缓,这推动了对大型推理模型(LRM)的关注。LRM通过推理时推理和自我反思来提高准确性,例如OpenAI的o3系列和DeepSeek-R1。QwQ-32B正是在这一趋势下应运而生。

QwQ-32B:强化学习与自我提问的结合

最新的QwQ-32B通过整合强化学习和结构化自我提问,进一步提升了性能,旨在成为推理AI领域的重要竞争者。QwQ团队的研究表明,强化学习可以显著提高模型解决复杂问题的能力。QwQ-32B采用了多阶段强化学习训练方法,以增强数学推理、编码能力和通用问题解决能力。

性能对比:低成本高性能的典范

在基准测试中,QwQ-32B与DeepSeek-R1、o1-mini和DeepSeek-R1-Distilled-Qwen-32B等领先模型展开了竞争,并在参数量小于部分竞品的情况下取得了有竞争力的结果。例如,DeepSeek-R1拥有6710亿参数(激活370亿),而QwQ-32B在性能相当的情况下,显存需求更小,通常在GPU上需要24GB vRAM,而运行完整的DeepSeek R1则需要超过1500GB vRAM。这使得QwQ-32B成为低成本高性能的理想选择。

性能测试1

性能测试2

技术细节:架构与训练

QwQ-32B采用了因果语言模型架构,并进行了多项优化,包括64个Transformer层、RoPE、SwiGLU、RMSNorm和Attention QKV bias。它还采用了广义查询注意力(GQA),拥有131,072tokens的扩展上下文长度,并经历了包括预训练、监督微调和强化学习在内的多阶段训练。

多阶段强化学习:提升模型智能

QwQ-32B的强化学习过程分为两个阶段:首先专注于数学和编码能力,利用准确性验证器和代码执行服务器进行训练。第二阶段则通过通用奖励模型和基于规则的验证器进行奖励训练,以提高指令跟随、人类对齐和代理推理能力,同时不影响其数学和编码能力。

Agentic Capabilities与部署

QwQ-32B还具备agentic capabilities,能够根据环境反馈动态调整推理过程。Qwen团队建议使用特定的推理设置以获得最佳性能,并支持使用vLLM进行部署,方便开发者快速上手。

未来展望:迈向通用人工智能

Qwen团队将QwQ-32B视为通过扩展强化学习增强推理能力的第一步,未来计划进一步探索扩展强化学习、整合代理与强化学习以实现长期推理,并持续开发为强化学习优化的基础模型,最终迈向通用人工智能(AGI)。

模型地址:https://qwenlm.github.io/blog/qwq-32b/

更多AI行业最新资讯新闻信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html

0
0
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 万人齐聚首钢园|第二十届中国IDC产业年度大典盛大召开!

  • 两部AI漫剧狂揽6.3亿播放,这套打法必须拆解学习!

  • 轻松定制专属3D手办!拓竹「印你」生成器携腾讯混元3D 3.0正式上线

  • MiniMax的务实AGI路径:以“交错思维”与全模态技术,拒绝盲目扩张

  • 商汤发布Seko 2.0:一句话生成100集连贯动画,AI视频Agent解决长剧连贯性难题

热点资讯

2025秘塔AI工具爆发式更新:API降价70%+千万月活,AI搜索市场格局生变

5天前
2025秘塔AI工具爆发式更新:API降价70%+千万月活,AI搜索市场格局生变

灵光AI助手推出网页版:电脑端可快速生成“闪应用”,数据与手机同步

5天前
灵光AI助手推出网页版:电脑端可快速生成“闪应用”,数据与手机同步

每日AI资讯-2025年12月09日

5天前
每日AI资讯-2025年12月09日

重磅消息!GLM-ASR系列模型开源,智谱AI输入法惊艳登场

4天前
重磅消息!GLM-ASR系列模型开源,智谱AI输入法惊艳登场

每日AI资讯-2025年12月11日

3天前
每日AI资讯-2025年12月11日
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有