每日AI资讯-2025年12月03日-AITOP100,AI资讯

商汤开源NEO模型：仅需1/10数据量，实现顶尖多模态性能

商汤科技与南洋理工大学S-Lab联手搞了个大动作，发布并开源了全新多模态模型架构NEO。这NEO可不简单，在性能、效率和通用性上都有重大突破。

它最厉害的地方就是数据效率极高。别的模型得用海量数据才能达到顶尖性能，而NEO仅需3.9亿图像文本示例，也就是业界同等性能模型1/10的数据量，就能开发出顶尖的视觉感知能力。在多项公开权威评测中，NEO都拿到了高分，综合性能超过其他原生VLM，真正做到了原生架构“精度无损”。

现在业内主流多模态模型大多是“视觉编码器+投影器+语言模型”的模块化设计，这种“拼凑”方式不仅学习效率低，在复杂多模态场景下处理能力也有限。NEO则从底层打破了这个桎梏，在注意力机制、位置编码和语义映射三个关键维度创新，让模型能统一处理视觉与语言。

它还有两大核心技术创新。原生图块嵌入摒弃了离散的图像tokenizer，能更精细捕捉图像细节；原生多头注意力让文本和视觉token的注意力并存，提升了模型对空间结构关联的利用率。

商汤NEO的出现，终结了“拼凑式”AI时代，为多模态模型发展指明了新方向。

未来，它或许会在更多领域大放异彩，我们拭目以待。

商汤开源NEO模型

夸克AI眼镜S1：智能语音交互，开启眼镜新体验

阿里巴巴推出了首款自研旗舰双显AI眼镜——夸克AI眼镜S1，要给用户带来超智能的AI助理体验。夸克团队和AAC瑞声科技合作，研发了一套独特的拾音系统。

这系统由5颗高性能麦克风和1颗骨传导麦克风组成，能精准捕捉轻声耳语的指令。在地铁、图书馆等嘈杂场所，传统智能眼镜可能无法识别指令，但夸克AI眼镜S1凭借这套系统，误唤醒率大幅降低，真正实现了“察言观色”。

它的高精度拾音系统不仅声学表现出色，体积还比行业标准缩小了25%，让眼镜更轻薄，功耗降低，续航能力大幅提升。骨传导麦克风能有效隔绝外界噪音，提升语音识别准确度。

夸克AI眼镜S1还支持多人多语种实时翻译，拓宽了应用场景。知名UP主电丸科技AK评价说，就像从功能机时代进入智能机时代，智能眼镜变得很懂用户。

这次合作攻克了智能眼镜语音交互技术难题，为智能穿戴行业开辟了新方向。

未来，智能眼镜将不再是冰冷的产品，而是能融入日常生活的智能伙伴，让用户享受更流畅贴心的体验。相信随着技术发展，夸克AI眼镜会给我们带来更多惊喜。

夸克AI眼镜S1

IDC榜单揭晓：具身智能机器人，未来市场潜力大

国际数据公司（IDC）首次推出《IDC Innovators: 具身智能机器人创新者》报告，预测到2030年，具身智能机器人在整体机器人用户支出市场占比将超30%。

具身智能机器人具备自我学习和决策能力，结合云计算、边缘推理和多模态感知等技术，能在不同场景自适应协同工作，推动机器人服务即服务（RaaS）商业模式发展。

IDC在报告中挑选了四家创新企业。微亿智造专注于工业领域，开发出能自主感知、学习和执行复杂任务的机器人系统；远舢智能的重载AI无人驾驶物流车，依托自研技术提升园区物流作业效率；Gecko Robotics的可爬墙机器人，能在复杂环境采集工业数据并借助AI分析预测；ANYbotics的四足机器人专为重工业设计，能巡检和采集数据，提供自动化解决方案。

IDC中国研究经理李君兰表示，这些企业通过智能化技术重塑机器人应用未来，提升任务执行效率和客户价值，助力企业智能化转型，降低成本和风险。

随着人工智能、感知技术和计算能力发展，具身智能机器人将在多个领域迅速扩展应用。

未来，它们会走进更多行业，改变我们的工作和生活方式，创造更多可能。

IDC榜单

Kling 2.6发布：AI视频进入有声时代，创作更轻松

快手旗下Kling AI在Omni生态周首日发布2.6版本，给AI视频领域带来新变革。这次升级首次内置音频生成，支持中英双语对白、歌唱与音效同步输出，实现“文本⇄视频⇄音频”一键闭环，口号“See the sound，Hear the Visual”凸显多模态同步定位。

技术规格上，2.6版本保持10秒1080P高清输出，每5秒仅需25积分，较前版降30%。扩散变换器+3D时空联合注意力架构带来多项提升，复杂指令遵守率提高15%，跨镜头角色一致性达SOTA，对标Seedance1.0盲测胜率285%。

市场层面，Kling2.6将率先在Artlist等专业平台上线，提供场景扩展与多元素编辑API，面向影视、短剧、广告及MV制作。快手称，2026Q1将推出4K/60fps版本，并开放自定义声线库，降低“AI制片”门槛。

行业观察认为，音频同步补齐了AI视频短板，后期剪辑流程有望缩短50%以上。随着Kling2.6落地，AI创作工具竞争从“画面”延伸至“声音”，有声短视频或迎来新一轮供给爆发。

未来，AI视频创作将更便捷高效，为创作者带来更多可能。

工具地址：kling ai官网（海外网站需要科学上网）

Kling 2.6

国内首款AI助盲眼镜发布：千元级价格，助视障人士出行

杭州瞳行科技发布了国内首款AI助盲眼镜，为约1700万视障人士带来福音。这款眼镜搭载阿里通义千问大模型，由眼镜本体、手机、遥控指环及盲杖四端协同工作。

它配备121度超广角双摄像头，实现300毫秒超低延迟，每步踏出就能语音播报路况，还能识别公交牌、路标，概述周边环境。公司技术总监陈刚介绍，大模型压缩了70%研发成本，让复杂视觉算法快速落地。

除了出行指引，眼镜还能通过本地文本识别帮助用户寻找店铺、阅读价签。预计2026年一季度正式开售，售价低于3000元。

行业观点认为，AI助盲硬件进入“千元级”区间后，有望大规模进入康复辅具采购目录，为视障群体打开独立外出与就业新通道。以前视障人士出行面临诸多困难，有了这款眼镜，他们能更安全、便捷地外出，融入社会。

科技的发展就是为了改善人们的生活，这款AI助盲眼镜就是很好的体现。希望未来能有更多这样的科技产品，帮助更多需要帮助的人，让生活变得更美好。

AI助盲眼镜

千问APP上线学习大模型：拍照答疑，学习好帮手

千问官方宣布，在APP上正式上线基于Qwen3训练的全新学习大模型——Qwen3-Learning，给用户带来全新学习体验。

这个模型功能强大，能准确识别拍照提问内容，支持跨文化、多语言解题，融合多国考试体系与真题。作业批改功能涵盖小学到高中所有学科，兼容印刷体与手写体，为学生提供智能化作业总结。无论是解题疑问还是作业反馈，它都能解答，就像“老师”随时在家中提供学习支持。

千问APP还推出全新Qwen-Image模型，用户可无限次免费使用进行智能拍照答疑，提升了APP竞争力。同时接入万相系列视频生成模型，带来更丰富学习内容。

自11月17日公测以来，千问APP下载量迅速突破1000万，11月25日在苹果App Store澳门免费榜夺得第一，香港免费榜跃居前三。这体现了用户对它的高度认可与需求。

科技在教育领域潜力巨大，Qwen3-Learning等智能功能让我们看到，未来会有更多创新工具帮助学生轻松高效掌握知识。期待千问APP不断优化，带来更多惊喜。

工具地址：通义千问官网

通义千问APP

超越谷歌Veo3：Runway发布新模型Gen-4.5，成最强文生视频模型

AI视频公司Runway正式发布最新视频生成模型Gen-4.5，为创作者、影视制作人和企业用户带来新选择。

Gen-4.5专为专业用户设计，预计不久向所有订阅层级开放。在Artificial Analysis的文本转视频基准测试中，它以1247分成绩脱颖而出，成为最强文生视频模型，超越谷歌Veo3等主流竞品。

该模型采用先进NVIDIA Hopper与Blackwell GPU平台，利用优化预训练数据效率、新型后训练策略和改进推理架构，实现高视觉保真度和物理准确性。能生成电影级别复杂场景，表现细腻情感表达。同时延续Image to Video和关键帧等控制模式，提供更多创作自由。

虽然在因果推理和物体恒常性等领域有挑战，但Gen-4.5整体表现树立行业新标杆，展现AI视频生成领域领先地位。此次发布为创作者和制作人带来更多创作可能，推动影视行业发展。

随着AI技术进步，未来会有更多优秀视频生成模型出现。Runway的Gen-4.5只是一个开始，相信它会不断优化，为行业带来更多创新和突破。

工具地址：Runway官网（海外网站需要科学上网）

Runway Gen-4.5

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：

aitop100官方交流30群