Qwen3-Omni

6312
0
0

Qwen3-Omni是阿里云通义千问团队在2025年9月23日正式发布的全球首个原生端到端全模态AI模型，并同步开源模型权重、代码及配套工具链。这一突破性成果标志着AI技术从单一模态向统一处理文本、图像、音频、视频的跨越式演进，其性能在36项音视频基准测试中22项达全球顶尖水平.

工具标签：

# AI大模型

直达网站

工具介绍

阿里云Qwen3-Omni是什么？

Qwen3-Omni是阿里云通义千问团队在2025年9月23日正式发布的全球首个原生端到端全模态AI模型，并同步开源模型权重、代码及配套工具链。这一突破性成果标志着AI技术从单一模态向统一处理文本、图像、音频、视频的跨越式演进，其性能在36项音视频基准测试中22项达全球顶尖水平，在自动语音识别、实时对话等场景中与Gemini 2.5 Pro持平，成为开源社区首个具备“深度思考+工具调用”与“非形式化+形式化”推理能力的全模态模型。

模型能力：

1. 跨模态统一处理能力

Qwen3-Omni通过动态路由机制实现文本、图像、音频、视频的统一编码与解码，突破传统多模态模型需在不同能力间权衡的瓶颈。例如：

音频理解：支持30分钟长音频的实时解析，可识别粤语、阿拉伯语等19种语言输入，并生成包含情绪、背景音、语义层次的细节描述。其开源的Qwen3-Omni-30B-A3B-Captioner模型在音频描述任务中，幻觉率较前代降低72%，细节还原度达行业新高。
视频生成：结合Qwen3-VL视觉模块，可基于文本提示生成包含连贯动作与场景转换的视频，在LiveCodeBench编程测试中，其生成的代码片段一次通过率达79.4%，与GPT-5表现相当。

2. 动态推理与效率革命

双模式架构：模型内置“思考者-表达者”双脑设计，支持“快思考”（非推理模式）与“慢思考”（推理模式）动态切换。例如，在处理日常对话时仅激活20%参数实现毫秒级响应，而面对数学证明等复杂任务时，可调用38K token的动态思考预算，通过多步骤分析输出结果。
硬件协同优化：与昇腾910B芯片深度适配，千亿参数模型推理能耗下降55%，4张H20加速卡即可部署旗舰版本，推理速度达传统同步方式的3倍。

3. 全球化语言覆盖

支持119种文本语言、19种语音输入语言及10种语音输出语言，涵盖英语、中文、法语、德语等主流语种，以及粤语、阿拉伯语、乌尔都语等小语种。在MultilF 8 Languages测试中，小语种翻译质量较GPT-4提升23%。

技术架构：

1. 混合专家系统（MoE）的精细化迭代

分层稀疏调度：通过配置文件灵活控制专家激活策略，例如设置mlp_only_layers = [0,6]时，模型仅在第0、3、6层启用MoE，其余层保持密集计算，使显存占用降低35%。
动态专家激活：默认每个token处理时激活8个专家，总专家池规模扩展至128个。在数学推理任务中，模型可自动调用12+专家资源，而简单对话仅需4-6个专家，实现计算效率与性能的平衡。

2. 低延迟流式交互

多码本量化设计：将音频、视频数据压缩为离散码本，结合FlashAttention-2内核优化，在RTX 4090显卡上实现211毫秒延迟的实时交互，支持自然对话的流畅进行。
异步流水线并行：采用“计算-通信重叠”策略，在256卡集群上训练速度提升92%，响应延迟<500ms，满足工业级应用需求。

3. 自回归预训练（AuT）与课程学习

三阶段训练策略：

基础能力构建：使用30万亿token数据训练4K上下文长度，覆盖网络文本、专业书籍等通用领域。
知识强化：加入STEM、编码等5万亿token数据，提升模型在数学、物理等领域的推理能力。
长上下文扩展：通过32K上下文长度训练，支持解析20万字学术论文并生成摘要，在BFCL评测中Agent能力超越Gemini-2.5-Pro。

开源生态：

1. 全尺寸模型矩阵开源

阿里云同步开源8款模型，涵盖0.6B到235B参数规模，均采用Apache 2.0协议：

稠密模型：0.6B（端侧部署）、4B（手机应用）、32B（企业级）模型，支持多模态输入与实时推理。
MoE模型：Qwen3-235B-A22B（总参数量235B，激活参数22B）、Qwen3-30B-A3B（300亿总参数/30亿激活参数）等，通过动态专家激活实现高性能与低成本的平衡。

2. 开发者友好工具链

部署框架支持：兼容vLLM、SGLang与llama.cpp，新增FlashAttention2内核，推理速度在A100 GPU上提升20%。
分布式沙箱系统：提供20+编程语言支持与数百万次并发代码执行能力，开发者可通过Hugging Face、GitHub、魔塔等平台快速集成测试。
模型微调工具：支持LoRA、QLoRA等轻量化微调方法，企业可基于私有数据快速定制模型，例如某物流企业通过INT8量化在边缘服务器部署30B模型，实时分析10万+运单数据，错误率降低23%。

3. 行业解决方案共建

金融风控：通过混合推理模式解析10万+条交易数据，欺诈识别准确率98.7%，响应时间<10秒。
智能制造：支持实时监控2000台工业机器人运行状态，设备故障诊断错误率较传统方法下降65%。
医疗诊断：Qwen3-VL模块可识别CT片中0.3mm的肺部结节，准确率达91.2%，超越三甲医院住院医师平均水平。

未来发展：

Qwen3-Omni的发布标志着AI技术进入“全模态智能”新阶段。其创新架构不仅重新定义了性能与成本的平衡点，更通过开源生态为全球开发者提供了探索智能体、形式化推理等前沿领域的工具。随着阿里云在本地生活服务、科研教育等场景中的持续落地，Qwen3-Omni有望成为连接数字与物理世界的“智能桥梁”，推动AI向更通用、更自主的方向演进。

体验入口：

Web端：https://chat.qwen.ai/?models=qwen3-omni-flash
Hugging Face Demo：https://huggingface.co/spaces/Qwen/Qwen3-Omni-Demo
开源代码：https://github.com/QwenLM/Qwen3-Omni

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：

全部评论

暂无评论

Qwen3-Omni

工具介绍

阿里云Qwen3-Omni是什么？