阿里通义再发力！Qwen3系列全模态AI模型连续升级，多模态检索达业界领先-AITOP100,AI资讯

2026年新年伊始，阿里巴巴通义千问团队持续推进AI技术创新步伐。继2025年12月发布Qwen3-Omni-Flash-2025-12-01全模态大模型升级版本后，1月8日再次宣布开源Qwen3-VL-Embedding与Qwen3-VL-Reranker两大模型系列，专为多模态信息检索与跨模态理解场景打造。这标志着通义千问在全模态AI领域的技术布局进入全新阶段，为开发者提供从内容理解到精准检索的完整解决方案。

Qwen3-Omni-Flash全面升级，音视频交互体验跃升

阿里通义Qwen团队在2025年12月推出的Qwen3-Omni-Flash-2025-12-01版本，基于原生全模态大模型Qwen3-Omni进行全面升级。这一新版本能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音输出。

此次升级的四大核心亮点尤为突出。首先，音视频交互体验全面提升，大幅增强对音视频指令的理解与执行能力，有效解决口语化场景中常见的"降智"问题，多轮音视频对话的稳定性与连贯性显著提升，交互更自然流畅。

其次，系统提示控制能力实现飞跃式突破。新版本全面开放System Prompt自定义功能，实现对模型行为的精细调控，无论是人设风格（如甜妹、御姐、日系等）、口语化表达偏好,还是回复长度等要求，均可精准实现，控制力大幅提升。

第三，多语言遵循能力更加可靠。模型支持119种文本语言交互、19种语音识别语言与10种语音合成语言，彻底优化了上一版本中语言遵循不稳定的问题，确保跨语言场景下响应准确一致。

第四，语音生成更拟人、更流畅。新版本彻底解决了语速拖沓、机械呆板的问题，显著提升模型根据文本内容自适应调节语速、停顿与韵律的能力，语音表现自然生动，拟人化程度逼近真人对话水平。

在客观性能指标方面，Qwen3-Omni-Flash-2025-12-01的全模态能力全面跃升。文本理解与生成能力更强大，在逻辑推理（ZebraLogic +5.6）、代码生成（LiveCodeBench-v6 +9.3、MultiPL-E +2.7）和综合写作（WritingBench +2.2）等任务上大幅提升；语音理解更精准，在语音识别字错率显著降低，语音对话评估得分提升3.2分；图像理解更深入，在多学科视觉问答（MMMU +4.7、MMMU_pro +4.8）和数学视觉推理（Mathvision_full +2.2）任务上取得飞跃；视频理解更连贯，视频语义理解能力持续优化，为实时视频对话提供坚实基础。

多模态检索新标杆：Qwen3-VL系列开源发布

2026年1月8日，通义千问团队再次推出重磅开源产品——Qwen3-VL-Embedding与Qwen3-VL-Reranker模型系列。这两个模型基于Qwen3-VL构建，专为多模态信息检索与跨模态理解场景设计，在权威基准测试中达到业界领先水平。

Qwen3-VL-Embedding模型采用双塔架构，能够在统一框架内处理包含文本、图像、截图和视频的输入，通过充分利用Qwen3-VL基础模型的优势，生成语义丰富的向量表示，在共享空间中同时捕获视觉和文本信息，实现高效的跨模态相似度计算和检索。

Qwen3-VL-Reranker模型则采用单塔架构，作为Embedding模型的有力补充。该模型接收输入对（Query, Document），其中查询和文档均可包含任意单一或混合模态，并输出精确的相关性分数。在实际检索场景中，Embedding和Reranker模型协同工作：Embedding模型负责初始召回阶段，Reranker模型负责重排序阶段，这种两阶段流程显著提升了最终检索精度。

性能评测数据显示，Qwen3-VL-Embedding-8B模型在MMEB-V2基准测试上取得业界领先成果，超越了所有先前的开源模型和闭源商业服务。在图文检索、视频文本匹配、视觉问答以及多模态内容聚类等多样化任务中，均展现出卓越表现。所有Qwen3-VL-Reranker模型的性能均持续优于基础Embedding模型和基线Reranker模型，其中8B版本在大多数任务中达到最佳性能。

开源生态持续扩展，全球开发者共享技术红利

通义千问团队在开源策略上持续发力。继2025年6月开源面向文本的Qwen3-Embedding和Qwen3-ReRanker模型系列后，此次再推多模态版本，为开发者构建完整的多模态AI应用提供了从基础理解到精准检索的全套工具链。

新发布的模型继承了Qwen3-VL的多语言能力，支持超过30种语言，适合全球化应用。模型提供灵活的向量维度选择、可定制的任务指令，以及向量量化后的强劲性能，使开发者能够轻松将模型集成到现有流程中，用于需要强大跨语言和跨模态理解能力的应用场景。

从2023年至今，阿里通义团队已开源300多款模型，包含大语言模型千问Qwen及视觉生成模型万相Wan等两大基模系列。此次Qwen3-VL系列的开源发布，是通义千问在统一多模态表示和检索领域的重要探索，标志着阿里在全模态AI技术路线上的系统性布局进入收获期。

通义团队表示，Qwen3-VL-Embedding和Qwen3-VL-Reranker的开源是一个新的起点，期待与全球开发者社区携手合作，共同探索和构建更加通用的统一多模态检索能力，推动多模态AI技术的发展与落地应用。随着2026年1月5日通义千问3-omni-flash和通义千问3-omni-flash-realtime模型在百炼平台的升级完成，开发者可以更便捷地体验最新技术成果，为各类应用场景注入AI创新动力。

AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息，带来最新AI内容讯息。

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说

AITOP100平台官方交流社群二维码：

aitop100官方交流30群 AIGC大赛社群