2026年新年伊始,阿里巴巴通义千问团队持续推进AI技术创新步伐。继2025年12月发布Qwen3-Omni-Flash-2025-12-01全模态大模型升级版本后,1月8日再次宣布开源Qwen3-VL-Embedding与Qwen3-VL-Reranker两大模型系列,专为多模态信息检索与跨模态理解场景打造。这标志着通义千问在全模态AI领域的技术布局进入全新阶段,为开发者提供从内容理解到精准检索的完整解决方案。
Qwen3-Omni-Flash全面升级,音视频交互体验跃升
阿里通义Qwen团队在2025年12月推出的Qwen3-Omni-Flash-2025-12-01版本,基于原生全模态大模型Qwen3-Omni进行全面升级。这一新版本能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音输出。
此次升级的四大核心亮点尤为突出。首先,音视频交互体验全面提升,大幅增强对音视频指令的理解与执行能力,有效解决口语化场景中常见的"降智"问题,多轮音视频对话的稳定性与连贯性显著提升,交互更自然流畅。
其次,系统提示控制能力实现飞跃式突破。新版本全面开放System Prompt自定义功能,实现对模型行为的精细调控,无论是人设风格(如甜妹、御姐、日系等)、口语化表达偏好,还是回复长度等要求,均可精准实现,控制力大幅提升。
第三,多语言遵循能力更加可靠。模型支持119种文本语言交互、19种语音识别语言与10种语音合成语言,彻底优化了上一版本中语言遵循不稳定的问题,确保跨语言场景下响应准确一致。
第四,语音生成更拟人、更流畅。新版本彻底解决了语速拖沓、机械呆板的问题,显著提升模型根据文本内容自适应调节语速、停顿与韵律的能力,语音表现自然生动,拟人化程度逼近真人对话水平。
在客观性能指标方面,Qwen3-Omni-Flash-2025-12-01的全模态能力全面跃升。文本理解与生成能力更强大,在逻辑推理(ZebraLogic +5.6)、代码生成(LiveCodeBench-v6 +9.3、MultiPL-E +2.7)和综合写作(WritingBench +2.2)等任务上大幅提升;语音理解更精准,在语音识别字错率显著降低,语音对话评估得分提升3.2分;图像理解更深入,在多学科视觉问答(MMMU +4.7、MMMU_pro +4.8)和数学视觉推理(Mathvision_full +2.2)任务上取得飞跃;视频理解更连贯,视频语义理解能力持续优化,为实时视频对话提供坚实基础。
多模态检索新标杆:Qwen3-VL系列开源发布
2026年1月8日,通义千问团队再次推出重磅开源产品——Qwen3-VL-Embedding与Qwen3-VL-Reranker模型系列。这两个模型基于Qwen3-VL构建,专为多模态信息检索与跨模态理解场景设计,在权威基准测试中达到业界领先水平。
Qwen3-VL-Embedding模型采用双塔架构,能够在统一框架内处理包含文本、图像、截图和视频的输入,通过充分利用Qwen3-VL基础模型的优势,生成语义丰富的向量表示,在共享空间中同时捕获视觉和文本信息,实现高效的跨模态相似度计算和检索。
Qwen3-VL-Reranker模型则采用单塔架构,作为Embedding模型的有力补充。该模型接收输入对(Query, Document),其中查询和文档均可包含任意单一或混合模态,并输出精确的相关性分数。在实际检索场景中,Embedding和Reranker模型协同工作:Embedding模型负责初始召回阶段,Reranker模型负责重排序阶段,这种两阶段流程显著提升了最终检索精度。
性能评测数据显示,Qwen3-VL-Embedding-8B模型在MMEB-V2基准测试上取得业界领先成果,超越了所有先前的开源模型和闭源商业服务。在图文检索、视频文本匹配、视觉问答以及多模态内容聚类等多样化任务中,均展现出卓越表现。所有Qwen3-VL-Reranker模型的性能均持续优于基础Embedding模型和基线Reranker模型,其中8B版本在大多数任务中达到最佳性能。
开源生态持续扩展,全球开发者共享技术红利
通义千问团队在开源策略上持续发力。继2025年6月开源面向文本的Qwen3-Embedding和Qwen3-ReRanker模型系列后,此次再推多模态版本,为开发者构建完整的多模态AI应用提供了从基础理解到精准检索的全套工具链。
新发布的模型继承了Qwen3-VL的多语言能力,支持超过30种语言,适合全球化应用。模型提供灵活的向量维度选择、可定制的任务指令,以及向量量化后的强劲性能,使开发者能够轻松将模型集成到现有流程中,用于需要强大跨语言和跨模态理解能力的应用场景。
从2023年至今,阿里通义团队已开源300多款模型,包含大语言模型千问Qwen及视觉生成模型万相Wan等两大基模系列。此次Qwen3-VL系列的开源发布,是通义千问在统一多模态表示和检索领域的重要探索,标志着阿里在全模态AI技术路线上的系统性布局进入收获期。
通义团队表示,Qwen3-VL-Embedding和Qwen3-VL-Reranker的开源是一个新的起点,期待与全球开发者社区携手合作,共同探索和构建更加通用的统一多模态检索能力,推动多模态AI技术的发展与落地应用。随着2026年1月5日通义千问3-omni-flash和通义千问3-omni-flash-realtime模型在百炼平台的升级完成,开发者可以更便捷地体验最新技术成果,为各类应用场景注入AI创新动力。
AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










