• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
  • AI漫剧创作
AI 对话

LongCat-Next 全量开源:原生统一多模态,终于把图文音频放进同一种“语言”里

LongCat-Next 全量开源:原生统一多模态,终于把图文音频放进同一种“语言”里
小峰
6小时前



过去两年,多模态大模型的热闹,很大程度上来自“会看图、会听音频、会说话”的能力叠加。


但真正棘手的问题是:这些能力到底是一个模型原生长出来的,还是在语言模型外面再接几个视觉、语音模块?


LongCat-Next 的全量开源,把这个问题再次推到台前。


据公开报道,美团在 3 月 26 日发布并全面开源原生多模态大模型 LongCat-Next,同时开源其核心组件——离散原生分辨率视觉分词器 dNaViT。它最值得关注的地方,不只是“多了几个模态”,而是试图用同一套离散 Token,把文本、图像、语音放进统一建模框架里。[ref_1]


换句话说,它想解决的不是“让大模型多接几个外设”,而是让 AI 拥有一套能同时描述文字、图像和声音的底层表示。

1. 多模态不是“拼装”,而是回到同一个 Token 空间

传统多模态模型常见路线,是以语言模型为中心,再外挂视觉编码器、语音编码器等模块。这样做工程上有效,但天然会带来一个问题:不同模态之间需要反复对齐、投影和转换。


LongCat-Next 的思路更激进。


它采用 DiNA(Discrete Native Autoregressive,离散原生自回归)架构,将图像、语音与文本统一映射为同源离散 Token,并继续沿用大模型最熟悉的“下一个 Token 预测”范式。[ref_1]


这意味着:


  • 文字不是唯一的“母语”;
  • 图片、音频也会被转成模型可直接处理的离散序列;
  • 理解和生成不再是两套割裂系统,而是在统一参数空间里完成。


如果说过去的多模态像是“翻译同传”:视觉、语音先各说各的,再努力翻译给语言模型听;那么 LongCat-Next 更像是在底层重建一种“多模态通用语”。


2. dNaViT:把图像也变成可预测的离散序列

图像是统一多模态里最难处理的部分之一。


原因很简单:文字天然就是离散 Token,语音也可以切分成帧或编码单元,但图像是连续、高维、信息密度很高的像素空间。直接把图像粗暴压成 Token,容易丢细节;保留太多,又会导致计算成本失控。


LongCat-Next 开源的核心组件 dNaViT,正是为了解这个矛盾。


公开信息显示,dNaViT 支持原生任意分辨率,并通过残差向量量化等机制,将图像压缩为离散表示,在“可建模”和“保真度”之间寻找平衡。[ref_2]


这件事的意义在于:


  • 图像可以像文本一样参与自回归预测;
  • 模型不只是“看懂图片”,还可以在同一框架里生成图像;
  • 文档、图表、界面截图等细粒度视觉任务,有机会被纳入更统一的训练目标。


这也是 LongCat-Next 被称为“原生统一多模态”的关键原因:它不是简单把视觉结果翻译成文字,而是把视觉本身纳入模型的 Token 世界。

3. 图文音频同源生成:真正变化在产品层

对开发者和企业来说,架构创新最终要落到产品能力上。


“图文音频同源生成”真正有价值的地方,在于它可能减少多模型串联带来的不稳定性。


过去做一个完整的内容生成链路,往往需要:


  1. 语言模型写文案;
  2. 图像模型生成配图;
  3. TTS 模型生成语音;
  4. 再用额外规则做风格对齐。


链路越长,风格漂移越明显。文案是 A 风格,配图是 B 风格,语音又像 C 风格,最终体验很难稳定。


如果文本、图像、音频都能进入统一 Token 空间,同一个模型就有机会围绕同一语义目标生成不同模态内容。它带来的不是“单点能力提升”,而是跨模态一致性的提升。


这对几个场景尤其关键:


  • 内容生产:一篇文章、一组配图、一段旁白可以围绕同一主题生成;
  • 本地生活服务:用户用口语、图片、文字混合表达需求,系统需要统一理解并执行;
  • 智能客服:文本回复、语音播报、图片说明可以保持一致口径;
  • 教育和培训:讲义、示意图、音频讲解可围绕同一知识结构展开。

4. 开源的重点,不只是模型权重

LongCat-Next 这次引发关注,还有一个原因:它强调“全量开源”。


公开报道提到,LongCat-Next 及核心组件 dNaViT 已在 GitHub 与 HuggingFace 平台开源。[ref_1][ref_2]


对行业来说,开源价值主要体现在三层:


第一,降低复现门槛。 统一多模态听起来很美,但如果没有模型、分词器、推理链路,外部团队很难判断其真实价值。


第二,推动应用试错。 多模态模型的能力边界,往往不是只靠论文指标就能看清,而是要放进真实业务里反复验证。


第三,形成生态反馈。 当开发者能够围绕 dNaViT、DiNA 架构做适配和优化,模型路线本身才可能快速迭代。


这也是为什么 LongCat-Next 的意义不只是一款新模型,而是一次关于“多模态底层表示”的公开实验。

5. 对行业的启发:下一阶段竞争,不只是参数规模

过去大模型竞争,很容易被简化为参数规模、上下文长度、榜单分数。


但 LongCat-Next 提醒我们,下一阶段的关键问题可能是:模型到底如何表示世界?


如果 AI 要处理真实世界,它面对的输入从来不是单一文本,而是图像、声音、空间、时间、行为和上下文的混合体。


因此,谁能把这些信息更自然地放进统一表示体系,谁就更有可能在复杂任务里获得优势。


从这个角度看,LongCat-Next 值得关注的不是“又一个多模态模型开源了”,而是它把一个长期存在的问题摊开了:


多模态的终局,可能不是多个模型互相调用,而是所有模态共享同一套可学习、可预测、可生成的底层语言。

结语

LongCat-Next 的全量开源,是原生统一多模态路线的一次重要节点。


它把文本、图像、音频统一到同源离散 Token,并以自回归方式建模,试图让 AI 不再依赖“语言基座 + 外挂模块”的拼装式路线。


当然,开源之后真正的考验才刚开始:模型在真实场景中的稳定性、成本、生成质量、生态适配,都需要开发者和产业端继续验证。


但可以确定的是,多模态大模型的竞争正在从“会不会看、会不会听、会不会说”,走向更底层的问题:


它是否拥有一种统一理解世界的方式。




参考来源

[ref_1] 腾讯网 / i黑马:《美团发布原生多模态模型LongCat-Next并全面开源》,2026-03-31。


[ref_2] 搜狐网 / 财法观天下:《大模型研发团队发布并开源原生多模态LongCat-Next》,2026-06-04。


[ref_3] ITBear科技资讯:《全新架构打破模态壁垒!LongCat-Next开源,AI原生理解多模态世界成现实》,2026-06-05。


0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 每日AI资讯-2026年6月05日

  • OpenAI发布六大行业Codex插件,赋能多岗位日常办公工作流

  • 每日AI资讯-2026年6月04日

  • 每日AI资讯-2026年6月03日

  • 每日AI资讯-2026年6月02日

热点资讯

每日AI资讯-2026年6月01日

4天前
每日AI资讯-2026年6月01日

🔥横店国际AI短剧生态展映征集:让你的AI作品登陆横店影视产业核心舞台

2天前
🔥横店国际AI短剧生态展映征集:让你的AI作品登陆横店影视产业核心舞台

从代码工具变身全能职场助手!OpenAI Codex重磅更新,6大岗位插件打通全行业办公链路

2天前
从代码工具变身全能职场助手!OpenAI Codex重磅更新,6大岗位插件打通全行业办公链路

智谱拟募资150亿港股上市未满5个月转头冲刺科创板,国产大模型进入资本决胜周期

2天前
智谱拟募资150亿港股上市未满5个月转头冲刺科创板,国产大模型进入资本决胜周期

AI大赛:邦德咖啡-邦德先生AI脑洞大赛,10万元等你来赢取

2天前
AI大赛:邦德咖啡-邦德先生AI脑洞大赛,10万元等你来赢取
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有