• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
  • AI漫剧创作热门-AI社区
AI 对话

商汤开源SenseNova U1:去掉VE和VAE的"缝合怪",8B小模型跑出大模型效果

商汤开源SenseNova U1:去掉VE和VAE的"缝合怪",8B小模型跑出大模型效果
AI TOP100
1小时前

商汤开源SenseNova U1

一、架构革命:从"缝合怪"到"原生统一"

传统多模态模型的问题在哪?

过去几年,主流多模态模型几乎被一个固定范式统治:

  • 视觉编码器(VE):负责感知理解,把图像压缩成特征向量喂给语言模型
  • 变分自编码器(VAE):负责生成图像,把语言模型的意图解码成像素
  • 适配器(Adapter):在VE和语言骨干之间做"翻译"

这套路线的致命缺陷在于信息断层。视觉编码器把图像压缩成特征向量时,本质上是一次有损筛选——哪些视觉细节值得保留、哪些可以舍弃,这个决定在模型真正开始思考之前就已经做完了。生成侧同样如此,解码器只能从语言模型的理解结果中重建图像,而不是从原始像素出发。两端都在用二手信息工作。

模型地址:商汤日日新官网

商汤开源SenseNova U1

NEO-unify架构怎么解决?

SenseNova U1的NEO-unify架构做了三件事:

传统拼接式 NEO-unify原生统一
VE + VAE + 适配器,三套系统接力 去除VE和VAE,一套系统完成
视觉和语言是两个互相翻译的系统 图像和文本在同一内部空间共同参与计算
理解→翻译→生成,多阶段串行 感知、理解、推理、表达在同一模型内并行
信息每多一次传递就多一次损耗 信息路径更短,无中间转译损耗

核心思路:让图像信息和文本信息在同一个内部空间中共同参与计算,模型处理图文任务时不再需要"看图系统→语言系统→生成系统"之间来回传递,而是在同一套模型内部完成全部流程。

二、两个开源版本:8B稠密 + A3B-MoE混合专家

本次开源的是SenseNova U1的轻量版系列——SenseNova U1 Lite,包含两个规格:

模型 骨干网络 特点
SenseNova-U1-8B-MoT 稠密骨干网络 8B参数,统一架构效率极高
SenseNova-U1-A3B-MoT 混合专家(MoE)骨干网络 稀疏激活,推理更快
  • GitHub:https://github.com/OpenSenseNova/SenseNova-U1
  • Hugging Face:https://huggingface.co/collections/sensenova/sensenova-u1
  • 商汤表示将于近期公布详细技术报告

三、评测数据:8B小模型的越级表现

图像理解与生成基准测试

SenseNova-U1-8B-MoT虽然只有8B参数,但在通用理解、空间理解等多个测试中取得领先,超过了Qwen3VL-30B-A3B、Gemma4-26B-A4B等更大规模模型。

信息图生成(Infographics)

其中一项信息图生成测试拿到39.8分,领先Qwen-Image等模型。在处理高难度、高密度信息转化为图表时,具备行业领先的逻辑重组能力。

文字渲染(Text Rendering)

SenseNova U1 Lite的成绩几乎全面领先。AI生图最怕文字崩坏,这一测试结果证明了其在视觉化文字上的精准度。

商汤开源SenseNova U1

商汤开源SenseNova U1

视觉推理

  • VBVR (UMM) 得分60.5,超过Nano-Banana的49.6分
  • 处理复杂视觉关系推理时比同类模型更"聪明"

指令遵循与视觉编辑

  • WISE维度69.0分,领先Qwen-Image(63.0)
  • GEdit-Bench得分7.47,同量级开源模型中顶尖,甚至优于部分更大参数的闭源方案

效率:生成延迟仅约15秒/2K图

SenseNova-U1-8B-MoT的延迟大约只有15秒/2K图,是所有对比模型中生成速度最突出的,平均得分接近67分,已进入主流商业模型所在的中高分区间。相比之下,部分商业模型耗时达到30秒甚至70秒以上。

与闭源模型对比

在通用图像生成测试中,SenseNova U1 Lite在图像生成质量上比肩Qwen-Image 2.0 Pro、Seedream 4.5等大型闭源模型,推理响应速度也存在优势。

四、行业首创:连续性图文创作输出

传统模型的工作方式是先用文字想清楚,再调用外部工具生图——两个步骤,两套系统。SenseNova U1打破了这道墙,能在同一套推理过程中让图像和文字同步生长:

  • 生成故事连环画时,一边推进情节一边同步生成对应场景插图,逻辑连贯、风格统一
  • 解释电影运镜时,文字解释和视觉图同步输出,角色高度一致
  • 处理论文摘要时,不只是重排文字,而是提取核心主张、方法逻辑和关键结论,用视觉结构呈现

五、具身智能方向:未来做机器人的"大脑"

商汤明确表示,随着具身智能趋势演进,计划未来将该模型作为机器人的"具身大脑",在单一模型闭环内完成从环境感知→逻辑推演→任务执行的全过程。在逻辑推理与空间智能方向,模型已能深度理解物理世界的复杂布局与精细关系,这为具身智能应用提供了关键基础。


AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。

想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说

AITOP100平台官方交流社群二维码:

AITOP100平台官方交流社群二维码二维码

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • 日日新SenseNova
相关资讯
  • GPT Image 2登顶SuperCLUE文生图榜首:汉字生成93.07分,超越谷歌Nano Banana 2

  • 商汤开源SenseNova U1:去掉VE和VAE的"缝合怪",8B小模型跑出大模型效果

  • Perplexity Comet全面适配iPad:多窗口+多任务,深度整合OpenAI与Anthropic模型

  • OpenAI官方终于说了:GPT-5.5提示词越简单越好,别再给冗长指令了

  • 全球最火开源Agent框架"换脑":OpenClaw接入DeepSeek V4Flash成默认模型

热点资讯

每日AI资讯-2026年4月27日

2天前
每日AI资讯-2026年4月27日

2026重庆国际动画电影周“金山茶”荣誉推荐活动征集:动画盛宴,全球邀约!

5天前
2026重庆国际动画电影周“金山茶”荣誉推荐活动征集:动画盛宴,全球邀约!

Uidea首届AI创作大赛|主题:AI=“爱”

5天前
Uidea首届AI创作大赛|主题:AI=“爱”

GAIE2026:AI幻境电影节

1天前
GAIE2026:AI幻境电影节

2026年4月下旬7场重磅AI大赛汇总,总奖金475.56万,附报名入口

5天前
2026年4月下旬7场重磅AI大赛汇总,总奖金475.56万,附报名入口
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有