商汤开源SenseNova U1：去掉VE和VAE的"缝合怪"，8B小模型跑出大模型效果

商汤开源SenseNova U1：去掉VE和VAE的"缝合怪"，8B小模型跑出大模型效果

2026-04-29 16:21:44

商汤开源SenseNova U1

一、架构革命：从"缝合怪"到"原生统一"

传统多模态模型的问题在哪？

过去几年，主流多模态模型几乎被一个固定范式统治：

视觉编码器（VE）：负责感知理解，把图像压缩成特征向量喂给语言模型
变分自编码器（VAE）：负责生成图像，把语言模型的意图解码成像素
适配器（Adapter）：在VE和语言骨干之间做"翻译"

这套路线的致命缺陷在于信息断层。视觉编码器把图像压缩成特征向量时，本质上是一次有损筛选——哪些视觉细节值得保留、哪些可以舍弃，这个决定在模型真正开始思考之前就已经做完了。生成侧同样如此，解码器只能从语言模型的理解结果中重建图像，而不是从原始像素出发。两端都在用二手信息工作。

模型地址：商汤日日新官网

商汤开源SenseNova U1

NEO-unify架构怎么解决？

SenseNova U1的NEO-unify架构做了三件事：

传统拼接式	NEO-unify原生统一
VE + VAE + 适配器，三套系统接力	去除VE和VAE，一套系统完成
视觉和语言是两个互相翻译的系统	图像和文本在同一内部空间共同参与计算
理解→翻译→生成，多阶段串行	感知、理解、推理、表达在同一模型内并行
信息每多一次传递就多一次损耗	信息路径更短，无中间转译损耗

核心思路：让图像信息和文本信息在同一个内部空间中共同参与计算，模型处理图文任务时不再需要"看图系统→语言系统→生成系统"之间来回传递，而是在同一套模型内部完成全部流程。

二、两个开源版本：8B稠密 + A3B-MoE混合专家

本次开源的是SenseNova U1的轻量版系列——SenseNova U1 Lite，包含两个规格：

模型	骨干网络	特点
SenseNova-U1-8B-MoT	稠密骨干网络	8B参数，统一架构效率极高
SenseNova-U1-A3B-MoT	混合专家（MoE）骨干网络	稀疏激活，推理更快

GitHub：https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face：https://huggingface.co/collections/sensenova/sensenova-u1
商汤表示将于近期公布详细技术报告

三、评测数据：8B小模型的越级表现

图像理解与生成基准测试

SenseNova-U1-8B-MoT虽然只有8B参数，但在通用理解、空间理解等多个测试中取得领先，超过了Qwen3VL-30B-A3B、Gemma4-26B-A4B等更大规模模型。

信息图生成（Infographics）

其中一项信息图生成测试拿到39.8分，领先Qwen-Image等模型。在处理高难度、高密度信息转化为图表时，具备行业领先的逻辑重组能力。

文字渲染（Text Rendering）

SenseNova U1 Lite的成绩几乎全面领先。AI生图最怕文字崩坏，这一测试结果证明了其在视觉化文字上的精准度。

商汤开源SenseNova U1

商汤开源SenseNova U1

视觉推理

VBVR (UMM) 得分60.5，超过Nano-Banana的49.6分
处理复杂视觉关系推理时比同类模型更"聪明"

指令遵循与视觉编辑

WISE维度69.0分，领先Qwen-Image（63.0）
GEdit-Bench得分7.47，同量级开源模型中顶尖，甚至优于部分更大参数的闭源方案

效率：生成延迟仅约15秒/2K图

SenseNova-U1-8B-MoT的延迟大约只有15秒/2K图，是所有对比模型中生成速度最突出的，平均得分接近67分，已进入主流商业模型所在的中高分区间。相比之下，部分商业模型耗时达到30秒甚至70秒以上。

与闭源模型对比

在通用图像生成测试中，SenseNova U1 Lite在图像生成质量上比肩Qwen-Image 2.0 Pro、Seedream 4.5等大型闭源模型，推理响应速度也存在优势。

四、行业首创：连续性图文创作输出

传统模型的工作方式是先用文字想清楚，再调用外部工具生图——两个步骤，两套系统。SenseNova U1打破了这道墙，能在同一套推理过程中让图像和文字同步生长：

生成故事连环画时，一边推进情节一边同步生成对应场景插图，逻辑连贯、风格统一
解释电影运镜时，文字解释和视觉图同步输出，角色高度一致
处理论文摘要时，不只是重排文字，而是提取核心主张、方法逻辑和关键结论，用视觉结构呈现

五、具身智能方向：未来做机器人的"大脑"

商汤明确表示，随着具身智能趋势演进，计划未来将该模型作为机器人的"具身大脑"，在单一模型闭环内完成从环境感知→逻辑推演→任务执行的全过程。在逻辑推理与空间智能方向，模型已能深度理解物理世界的复杂布局与精细关系，这为具身智能应用提供了关键基础。

AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息，带来最新AI内容讯息。

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说

AITOP100平台官方交流社群二维码：

AITOP100平台官方交流社群二维码

0

0

文章来源：AI TOP100

免责声明：本文不代表本平台立场，且不构成投资建议，请谨慎对待。

全部评论

暂无评论

相关AI工具

日日新SenseNova

热点资讯

「织金秘境·洞见未来」织金洞AIGC视频创意挑战赛

「织金秘境·洞见未来」织金洞AIGC视频创意挑战赛

全网爆火！豆包桌面宠物EXE完整制作教程（含万能提示词+避坑指南）

全网爆火！豆包桌面宠物EXE完整制作教程（含万能提示词+避坑指南）

每日AI资讯-2026年7月24日

每日AI资讯-2026年7月24日

FLUX 3正式发布：统一图像/音视频/机器人动作，20秒原生有声视频+工业具身智能双突破

FLUX 3正式发布：统一图像/音视频/机器人动作，20秒原生有声视频+工业具身智能双突破

阿里发布Qwen-Image-3.0：4.5K超长文本输入拉满，攻克多层复杂图文生成商用痛点

阿里发布Qwen-Image-3.0：4.5K超长文本输入拉满，攻克多层复杂图文生成商用痛点

分享

0

0

欢迎来到AI Top100！我们聚合全球500+款AI智能软件，提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台，让您轻松了解全球AI领域动态，并为您提供优质服务。

合作伙伴

联系我们

加入AITOP100社群

加入社群

AITOP100商务微信

商务微信

相关链接

服务及隐私政策