• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI漫剧创作热门-AI社区
AI 对话

阿里通义再发力!Qwen3系列全模态AI模型连续升级,多模态检索达业界领先

阿里通义再发力!Qwen3系列全模态AI模型连续升级,多模态检索达业界领先
AI TOP100
2026-01-12 14:14:18

2026年新年伊始,阿里巴巴通义千问团队持续推进AI技术创新步伐。继2025年12月发布Qwen3-Omni-Flash-2025-12-01全模态大模型升级版本后,1月8日再次宣布开源Qwen3-VL-Embedding与Qwen3-VL-Reranker两大模型系列,专为多模态信息检索与跨模态理解场景打造。这标志着通义千问在全模态AI领域的技术布局进入全新阶段,为开发者提供从内容理解到精准检索的完整解决方案。

Qwen3-Omni-Flash全面升级,音视频交互体验跃升

阿里通义Qwen团队在2025年12月推出的Qwen3-Omni-Flash-2025-12-01版本,基于原生全模态大模型Qwen3-Omni进行全面升级。这一新版本能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音输出。

此次升级的四大核心亮点尤为突出。首先,音视频交互体验全面提升,大幅增强对音视频指令的理解与执行能力,有效解决口语化场景中常见的"降智"问题,多轮音视频对话的稳定性与连贯性显著提升,交互更自然流畅。

其次,系统提示控制能力实现飞跃式突破。新版本全面开放System Prompt自定义功能,实现对模型行为的精细调控,无论是人设风格(如甜妹、御姐、日系等)、口语化表达偏好,还是回复长度等要求,均可精准实现,控制力大幅提升。

第三,多语言遵循能力更加可靠。模型支持119种文本语言交互、19种语音识别语言与10种语音合成语言,彻底优化了上一版本中语言遵循不稳定的问题,确保跨语言场景下响应准确一致。

第四,语音生成更拟人、更流畅。新版本彻底解决了语速拖沓、机械呆板的问题,显著提升模型根据文本内容自适应调节语速、停顿与韵律的能力,语音表现自然生动,拟人化程度逼近真人对话水平。

在客观性能指标方面,Qwen3-Omni-Flash-2025-12-01的全模态能力全面跃升。文本理解与生成能力更强大,在逻辑推理(ZebraLogic +5.6)、代码生成(LiveCodeBench-v6 +9.3、MultiPL-E +2.7)和综合写作(WritingBench +2.2)等任务上大幅提升;语音理解更精准,在语音识别字错率显著降低,语音对话评估得分提升3.2分;图像理解更深入,在多学科视觉问答(MMMU +4.7、MMMU_pro +4.8)和数学视觉推理(Mathvision_full +2.2)任务上取得飞跃;视频理解更连贯,视频语义理解能力持续优化,为实时视频对话提供坚实基础。

多模态检索新标杆:Qwen3-VL系列开源发布

2026年1月8日,通义千问团队再次推出重磅开源产品——Qwen3-VL-Embedding与Qwen3-VL-Reranker模型系列。这两个模型基于Qwen3-VL构建,专为多模态信息检索与跨模态理解场景设计,在权威基准测试中达到业界领先水平。

Qwen3-VL-Embedding模型采用双塔架构,能够在统一框架内处理包含文本、图像、截图和视频的输入,通过充分利用Qwen3-VL基础模型的优势,生成语义丰富的向量表示,在共享空间中同时捕获视觉和文本信息,实现高效的跨模态相似度计算和检索。

Qwen3-VL-Reranker模型则采用单塔架构,作为Embedding模型的有力补充。该模型接收输入对(Query, Document),其中查询和文档均可包含任意单一或混合模态,并输出精确的相关性分数。在实际检索场景中,Embedding和Reranker模型协同工作:Embedding模型负责初始召回阶段,Reranker模型负责重排序阶段,这种两阶段流程显著提升了最终检索精度。

性能评测数据显示,Qwen3-VL-Embedding-8B模型在MMEB-V2基准测试上取得业界领先成果,超越了所有先前的开源模型和闭源商业服务。在图文检索、视频文本匹配、视觉问答以及多模态内容聚类等多样化任务中,均展现出卓越表现。所有Qwen3-VL-Reranker模型的性能均持续优于基础Embedding模型和基线Reranker模型,其中8B版本在大多数任务中达到最佳性能。

开源生态持续扩展,全球开发者共享技术红利

通义千问团队在开源策略上持续发力。继2025年6月开源面向文本的Qwen3-Embedding和Qwen3-ReRanker模型系列后,此次再推多模态版本,为开发者构建完整的多模态AI应用提供了从基础理解到精准检索的全套工具链。

新发布的模型继承了Qwen3-VL的多语言能力,支持超过30种语言,适合全球化应用。模型提供灵活的向量维度选择、可定制的任务指令,以及向量量化后的强劲性能,使开发者能够轻松将模型集成到现有流程中,用于需要强大跨语言和跨模态理解能力的应用场景。

从2023年至今,阿里通义团队已开源300多款模型,包含大语言模型千问Qwen及视觉生成模型万相Wan等两大基模系列。此次Qwen3-VL系列的开源发布,是通义千问在统一多模态表示和检索领域的重要探索,标志着阿里在全模态AI技术路线上的系统性布局进入收获期。

通义团队表示,Qwen3-VL-Embedding和Qwen3-VL-Reranker的开源是一个新的起点,期待与全球开发者社区携手合作,共同探索和构建更加通用的统一多模态检索能力,推动多模态AI技术的发展与落地应用。随着2026年1月5日通义千问3-omni-flash和通义千问3-omni-flash-realtime模型在百炼平台的升级完成,开发者可以更便捷地体验最新技术成果,为各类应用场景注入AI创新动力。


AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。

想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说

AITOP100平台官方交流社群二维码:

aitop100官方交流30群AIGC大赛社群


0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • 通义千问
  • Qwen3-Omni
  • Qwen Chat
相关资讯
  • 支付宝AI付春节用户破1亿,一句话解锁AI支付新体验

  • 编程党狂喜!阿里千问Qwen Coding Plan上线 双新模型适配拉满

  • 魔法原子成总台《2026春晚》智能机器人战略合作伙伴,“具身智能”走到聚光灯下

  • 豆包联动总台春晚上线“开好运锦囊”:超10万份科技好礼、最高8888元现金红包

  • 卷疯编程赛道!MiniMax M2.5上线 可直接调用对标顶尖

热点资讯

谷歌三连炸!Lyria3+Google Music上线,Gemini3.1更新

5天前
谷歌三连炸!Lyria3+Google Music上线,Gemini3.1更新

编程党狂喜!阿里千问Qwen Coding Plan上线 双新模型适配拉满

5天前
编程党狂喜!阿里千问Qwen Coding Plan上线 双新模型适配拉满

卷疯AI模特圈!Runway集结全球顶尖阵容 覆盖全场景创作

4天前
卷疯AI模特圈!Runway集结全球顶尖阵容 覆盖全场景创作

支付宝AI付春节用户破1亿,一句话解锁AI支付新体验

3天前
支付宝AI付春节用户破1亿,一句话解锁AI支付新体验

英伟达Q4财报:一份近乎完美的成绩单,为什么市场只涨了1%?

1天前
英伟达Q4财报:一份近乎完美的成绩单,为什么市场只涨了1%?
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有