阿里Qwen3-Omni-Flash发布：实时全模态交互，API定价1元起-AITOP100,AI资讯

2025年12月09日，阿里巴巴Qwen团队带来了一则重磅消息——正式发布新一代全模态大模型Qwen3-Omni-Flash-2025-12-01。这一模型的诞生，无疑为全模态交互领域注入了新的活力，引发了行业内外的广泛关注。

PS：登陆--左上角--选择Qwen3-Omni-Flash即可

阿里Qwen3-Omni-Flash

实时流式架构：打破模态壁垒，实现无缝交互

Qwen3-Omni-Flash最大的亮点之一便是其采用的实时流式架构。这一架构使得模型能够轻松实现文本、图像、音频和视频的无缝输入与同步输出。想象一下，在以往，我们可能需要分别使用不同的工具或模型来处理不同模态的信息，而现在，Qwen3-Omni-Flash就像是一个全能助手，能够一站式搞定所有需求。

在语言支持方面，该模型表现十分出色。它支持119种文本语言交互，无论是常见的英语、汉语，还是小众的少数民族语言，都能准确响应。

同时，还具备19种语音识别语言和10种语音合成语言的能力，确保在跨语言场景下也能游刃有余。官方宣称其语音表现自然度已逼近真人水平，这意味着在与模型进行语音交互时，我们几乎感受不到机械感，仿佛是在与一个真实的人对话。

个性化体验：自定义权限开放，打造专属AI伙伴

为了让用户拥有更加个性化的体验，新版本全面开放了System Prompt自定义权限。这意味着用户可以根据自己的需求，精细调控模型的行为模式。比如，你可以设定模型为“甜妹”“御姐”等特定人设风格，让交流更加有趣；也可以调整口语化表达偏好和回复长度，使模型更符合你的交流习惯。

更令人惊喜的是，模型还能根据文本内容自适应调节语速、停顿与韵律。当你阅读一篇充满激情的文章时，模型会以较快的语速和富有节奏感的韵律进行语音输出；而当你阅读一篇舒缓的散文时，语速则会变慢，停顿也会更加自然，仿佛在与你一同品味文字的美妙。

阿里Qwen3-Omni-Flash

性能显著提升：基准测试全面跃升，实力见证卓越

官方公布的数据显示，Qwen3-Omni-Flash在多个基准测试中均取得了显著提升。在逻辑推理任务（ZebraLogic）上，得分提升了5.6；在代码生成（LiveCodeBench-v6）上，提升了9.3；在多学科视觉问答（MMMU）上，提升了4.7。这些数据充分证明了该模型强大的多模态理解与分析能力。

以代码生成为例，在软件开发过程中，代码的质量和效率至关重要。Qwen3-Omni-Flash在代码生成方面的提升，意味着它能够更快、更准确地生成符合要求的代码，大大提高了开发效率，降低了开发成本。

而在多学科视觉问答方面，它能够综合理解图像、文本等多种信息，给出准确的答案，为教育、科研等领域提供了有力的支持。

市场部署迅速：API上线定价亲民，应用场景广泛

为了让更多开发者能够便捷地使用这一强大的模型，Qwen3-Omni-Flash目前已通过API上线。其定价十分亲民，输入定价为1元/百万tokens，输出为3元/百万tokens。这样的价格策略，使得中小企业和个人开发者也能够轻松接入，开展各种创新应用。

同时，模型已在Qwen Chat集成Demo，支持上传30秒视频并实时生成带画面口播。这一功能为直播、短视频等行业带来了全新的可能性。在直播中，主播可以借助模型实时生成口播内容，提高直播的趣味性和互动性；在短视频制作中，无需专业的配音演员和后期口播人员，即可快速生成高质量的视频内容，大大降低了制作成本。

行业意义深远：全模态进入“人格化”阶段，引领未来发展潮流

当其他多模态模型还在比拼能看懂多少图时，阿里已经将“实时流+人格化”做成了API，这无疑是一次重大的突破。对于直播、短视频、虚拟会议等重语音、重风格场景来说，Qwen3-Omni-Flash的出现相当于把“配音演员+后期口播”成本打到接近零。这不仅为企业节省了大量的成本，还提高了生产效率，推动了行业的快速发展。