商汤开源NEO模型:仅需1/10数据量,实现顶尖多模态性能
商汤科技与南洋理工大学S-Lab联手搞了个大动作,发布并开源了全新多模态模型架构NEO。这NEO可不简单,在性能、效率和通用性上都有重大突破。
它最厉害的地方就是数据效率极高。别的模型得用海量数据才能达到顶尖性能,而NEO仅需3.9亿图像文本示例,也就是业界同等性能模型1/10的数据量,就能开发出顶尖的视觉感知能力。在多项公开权威评测中,NEO都拿到了高分,综合性能超过其他原生VLM,真正做到了原生架构“精度无损”。
现在业内主流多模态模型大多是“视觉编码器+投影器+语言模型”的模块化设计,这种“拼凑”方式不仅学习效率低,在复杂多模态场景下处理能力也有限。NEO则从底层打破了这个桎梏,在注意力机制、位置编码和语义映射三个关键维度创新,让模型能统一处理视觉与语言。
它还有两大核心技术创新。原生图块嵌入摒弃了离散的图像tokenizer,能更精细捕捉图像细节;原生多头注意力让文本和视觉token的注意力并存,提升了模型对空间结构关联的利用率。
商汤NEO的出现,终结了“拼凑式”AI时代,为多模态模型发展指明了新方向。
未来,它或许会在更多领域大放异彩,我们拭目以待。

夸克AI眼镜S1:智能语音交互,开启眼镜新体验
阿里巴巴推出了首款自研旗舰双显AI眼镜——夸克AI眼镜S1,要给用户带来超智能的AI助理体验。夸克团队和AAC瑞声科技合作,研发了一套独特的拾音系统。
这系统由5颗高性能麦克风和1颗骨传导麦克风组成,能精准捕捉轻声耳语的指令。在地铁、图书馆等嘈杂场所,传统智能眼镜可能无法识别指令,但夸克AI眼镜S1凭借这套系统,误唤醒率大幅降低,真正实现了“察言观色”。
它的高精度拾音系统不仅声学表现出色,体积还比行业标准缩小了25%,让眼镜更轻薄,功耗降低,续航能力大幅提升。骨传导麦克风能有效隔绝外界噪音,提升语音识别准确度。
夸克AI眼镜S1还支持多人多语种实时翻译,拓宽了应用场景。知名UP主电丸科技AK评价说,就像从功能机时代进入智能机时代,智能眼镜变得很懂用户。
这次合作攻克了智能眼镜语音交互技术难题,为智能穿戴行业开辟了新方向。
未来,智能眼镜将不再是冰冷的产品,而是能融入日常生活的智能伙伴,让用户享受更流畅贴心的体验。相信随着技术发展,夸克AI眼镜会给我们带来更多惊喜。

IDC榜单揭晓:具身智能机器人,未来市场潜力大
国际数据公司(IDC)首次推出《IDC Innovators: 具身智能机器人创新者》报告,预测到2030年,具身智能机器人在整体机器人用户支出市场占比将超30%。
具身智能机器人具备自我学习和决策能力,结合云计算、边缘推理和多模态感知等技术,能在不同场景自适应协同工作,推动机器人服务即服务(RaaS)商业模式发展。
IDC在报告中挑选了四家创新企业。微亿智造专注于工业领域,开发出能自主感知、学习和执行复杂任务的机器人系统;远舢智能的重载AI无人驾驶物流车,依托自研技术提升园区物流作业效率;Gecko Robotics的可爬墙机器人,能在复杂环境采集工业数据并借助AI分析预测;ANYbotics的四足机器人专为重工业设计,能巡检和采集数据,提供自动化解决方案。
IDC中国研究经理李君兰表示,这些企业通过智能化技术重塑机器人应用未来,提升任务执行效率和客户价值,助力企业智能化转型,降低成本和风险。
随着人工智能、感知技术和计算能力发展,具身智能机器人将在多个领域迅速扩展应用。
未来,它们会走进更多行业,改变我们的工作和生活方式,创造更多可能。

Kling 2.6发布:AI视频进入有声时代,创作更轻松
快手旗下Kling AI在Omni生态周首日发布2.6版本,给AI视频领域带来新变革。这次升级首次内置音频生成,支持中英双语对白、歌唱与音效同步输出,实现“文本⇄视频⇄音频”一键闭环,口号“See the sound,Hear the Visual”凸显多模态同步定位。
技术规格上,2.6版本保持10秒1080P高清输出,每5秒仅需25积分,较前版降30%。扩散变换器+3D时空联合注意力架构带来多项提升,复杂指令遵守率提高15%,跨镜头角色一致性达SOTA,对标Seedance1.0盲测胜率285%。
市场层面,Kling2.6将率先在Artlist等专业平台上线,提供场景扩展与多元素编辑API,面向影视、短剧、广告及MV制作。快手称,2026Q1将推出4K/60fps版本,并开放自定义声线库,降低“AI制片”门槛。
行业观察认为,音频同步补齐了AI视频短板,后期剪辑流程有望缩短50%以上。随着Kling2.6落地,AI创作工具竞争从“画面”延伸至“声音”,有声短视频或迎来新一轮供给爆发。
未来,AI视频创作将更便捷高效,为创作者带来更多可能。
工具地址:kling ai官网 (海外网站需要科学上网)

国内首款AI助盲眼镜发布:千元级价格,助视障人士出行
杭州瞳行科技发布了国内首款AI助盲眼镜,为约1700万视障人士带来福音。这款眼镜搭载阿里通义千问大模型,由眼镜本体、手机、遥控指环及盲杖四端协同工作。
它配备121度超广角双摄像头,实现300毫秒超低延迟,每步踏出就能语音播报路况,还能识别公交牌、路标,概述周边环境。公司技术总监陈刚介绍,大模型压缩了70%研发成本,让复杂视觉算法快速落地。
除了出行指引,眼镜还能通过本地文本识别帮助用户寻找店铺、阅读价签。预计2026年一季度正式开售,售价低于3000元。
行业观点认为,AI助盲硬件进入“千元级”区间后,有望大规模进入康复辅具采购目录,为视障群体打开独立外出与就业新通道。以前视障人士出行面临诸多困难,有了这款眼镜,他们能更安全、便捷地外出,融入社会。
科技的发展就是为了改善人们的生活,这款AI助盲眼镜就是很好的体现。希望未来能有更多这样的科技产品,帮助更多需要帮助的人,让生活变得更美好。

千问APP上线学习大模型:拍照答疑,学习好帮手
千问官方宣布,在APP上正式上线基于Qwen3训练的全新学习大模型——Qwen3-Learning,给用户带来全新学习体验。
这个模型功能强大,能准确识别拍照提问内容,支持跨文化、多语言解题,融合多国考试体系与真题。作业批改功能涵盖小学到高中所有学科,兼容印刷体与手写体,为学生提供智能化作业总结。无论是解题疑问还是作业反馈,它都能解答,就像“老师”随时在家中提供学习支持。
千问APP还推出全新Qwen-Image模型,用户可无限次免费使用进行智能拍照答疑,提升了APP竞争力。同时接入万相系列视频生成模型,带来更丰富学习内容。
自11月17日公测以来,千问APP下载量迅速突破1000万,11月25日在苹果App Store澳门免费榜夺得第一,香港免费榜跃居前三。这体现了用户对它的高度认可与需求。
科技在教育领域潜力巨大,Qwen3-Learning等智能功能让我们看到,未来会有更多创新工具帮助学生轻松高效掌握知识。期待千问APP不断优化,带来更多惊喜。
工具地址:通义千问官网

超越谷歌Veo3:Runway发布新模型Gen-4.5,成最强文生视频模型
AI视频公司Runway正式发布最新视频生成模型Gen-4.5,为创作者、影视制作人和企业用户带来新选择。
Gen-4.5专为专业用户设计,预计不久向所有订阅层级开放。在Artificial Analysis的文本转视频基准测试中,它以1247分成绩脱颖而出,成为最强文生视频模型,超越谷歌Veo3等主流竞品。
该模型采用先进NVIDIA Hopper与Blackwell GPU平台,利用优化预训练数据效率、新型后训练策略和改进推理架构,实现高视觉保真度和物理准确性。能生成电影级别复杂场景,表现细腻情感表达。同时延续Image to Video和关键帧等控制模式,提供更多创作自由。
虽然在因果推理和物体恒常性等领域有挑战,但Gen-4.5整体表现树立行业新标杆,展现AI视频生成领域领先地位。此次发布为创作者和制作人带来更多创作可能,推动影视行业发展。
随着AI技术进步,未来会有更多优秀视频生成模型出现。Runway的Gen-4.5只是一个开始,相信它会不断优化,为行业带来更多创新和突破。
工具地址:Runway官网 (海外网站需要科学上网)

想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:









