每日AI资讯-2026年5月07日-AITOP100,AI资讯

字节跳动发布Doubao-Seed-2.0-lite：全模态理解模型实现"音画同步"深度推理

5月6日，字节跳动旗下火山引擎宣布，豆包大模型家族正式迎来首款全模态理解模型——Doubao-Seed-2.0-lite。作为该系列的重磅升级版本，新模型彻底打破了单一模态限制，实现了视频、图像、音频与文本的原生统一理解，标志着其在多模态交互领域迈出关键一步。

该模型在视觉与逻辑推理能力上表现尤为亮眼。在物理、医疗等高阶学科的复杂推理测试中，其性能已大幅超越今年2月发布的Pro版本，在细粒度感知及具身理解等前沿领域更是达到行业领先水平。通过融入语音理解技术，Doubao-Seed-2.0-lite能够实现"音画同步"的深度联合推理——不仅能"看懂"视频画面，还能结合背景音频精准判断视听一致性，甚至能在长视频中精准定位特定事件并还原复杂的人物关系脉络。

在音频处理层面，新模型支持19种语种转写及14个语种的互译，除了精准的语义识别外，还能敏锐捕捉语音中的情绪波动及环境背景声，使其理解能力更接近人类的自然认知。

值得关注的是，Doubao-Seed-2.0-lite首次实现了GUI图形用户界面理解与执行的一体化。它不仅能识别网页或应用中的按钮、菜单等元素，还能像真人一样完成点击、拖拽、输入等操作，真正实现了从"读懂界面"到"端到端交付任务"的闭环。

目前该技术已在电竞复盘、在线教育及跨境电商等领域落地——在电竞场景中，AI可连续分析长达25小时的比赛视频与语音，自动生成战术复盘图谱。

详情查看： https://www.aitop100.cn/doubao-seed-2.0-lite

字节跳动发布Doubao-Seed-2.0-lite

Mininglamp开源Cider+Mano-P：Mac端侧推理加速与纯视觉GUI Agent双重开源

近日，Mininglamp开源了两个重量级本地AI项目——Cider和Mano-P，分别针对Mac端侧推理加速和GUI智能体操作两大痛点，让Mac真正成为高效、私有、可深度操控的AI工作站。

许多用户在Mac上部署本地大模型时都会遇到相同问题：硬件芯片性能强劲，但实际推理速度和内存占用并未达到预期。Cider正是为此而来，该项目专注于更充分挖掘M系列芯片（特别是M5）的INT8TensorOps能力，通过优化底层计算路径，显著提升大型语言模型和视觉语言模型的本地推理速度，同时大幅降低内存消耗。

如果说Cider解决的是"跑得快"，Mano-P解决的则是"怎么用"——让AI像人类一样真正理解和操作电脑。Mano-P是一款面向端侧设备的纯视觉GUI Agent，支持在Mac mini和MacBook上本地推理，突破了传统Agent仅限浏览器操作的限制，能够直接操控桌面软件、网页界面、专业工具及复杂图形化工作流。其核心技术能力包括复杂GUI自动化操作、跨系统数据整合、长任务规划与执行、智能报告生成以及自主应用构建。整个过程中截图和任务数据均不出设备，充分保障隐私安全。

在项目展示中，Mano-P已在麻将游戏场景中展现出强大能力——通过纯视觉理解游戏界面，自主完成识牌、局面分析和决策动作，展示了从"感知"到"行动"的完整闭环能力。

Cider与Mano-P的结合，形成了一套完整的本地私有AI解决方案，无论是追求极致推理效率，还是需要AI自主完成复杂桌面任务的用户，都能在Mac上获得更强大、更私密的AI体验。

Mininglamp开源Cider+Mano-P

月之暗面申请注册KimiClaw商标：科学仪器类目引发硬件猜想

国内大模型领军企业北京月之暗面科技有限公司近期在知识产权布局上有了新动向。据天眼查公开信息显示，该公司已提交了多枚"KimiClaw"商标的注册申请，涵盖科学仪器、网站服务及通讯服务等多个核心领域。目前，相关商标状态均处于"等待实质审查"阶段。

这一动作引发了业内对于Kimi未来产品形态的诸多猜想——尤其是在科学仪器分类下的布局，是否预示着公司将从纯软件算法向硬件设备或更具象的物理交互产品延伸。

北京月之暗面科技有限公司成立于2023年4月，由杨植麟领衔创办，创始团队成员包括周昕宇、吴育昕等行业资深人士。公司自成立以来凭借长文本处理能力在AI圈迅速走红，近期更有消息传出公司即将完成一笔规模达20亿美元的新融资，估值有望突破200亿美元大关。

随着资本的持续加码和"KimiClaw"等新商标的出现，月之暗面在人工智能生态链上的野心正逐步显露。

KimiClaw

腾讯混元Hy3preview上线两周Token调用量增至10倍，OpenRouter周榜双料第一

腾讯混元大模型近日公布Hy3preview上线两周后的运行数据，显示该模型在开发者生态中呈现出爆发式增长态势。自发布以来，Hy3preview的Token调用总量已达上一代模型Hy2的10倍以上，代码编写与智能体构建成为核心增长引擎，驱动腾讯内部WorkBuddy、Codebuddy及Qclaw等应用端的总调用量增幅突破16.5倍。

除内部生态的强劲表现外，Hy3preview在外部开发者市场同样占据领先地位。根据OpenRouter公开的周度数据显示，该模型在过去一周内不仅摘得Token调用量总榜与市场占有率的"双料冠军"，在编程辅助和工具调用等高阶场景下的调用热度亦位居榜首。

腾讯混元负责人指出，Hy3preview研发初衷旨在强化实用性，通过在OpenRouter开启限免活动，团队成功在真实复杂场景中收集到了大量极具价值的开发者反馈。这种基于开源社区与开放平台的众测模式，正成为大语言模型快速迭代的关键路径。

行业观察认为，Hy3preview的突破标志着国产大模型正从单纯的对话能力向具备生产力属性的"行动者"转型，随着调用量的指数级增长，海量真实数据反馈将进一步优化模型的逻辑推理与任务执行边界，加速国内大模型在B端应用及自动化工作流中的渗透效率。

工具地址：腾讯混元官网

腾讯混元Hy3preview

谷歌Gemma4推理速度提升3倍：MTP起草器让离线大模型时代真正到来

当地时间5月5日，谷歌正式发布了针对Gemma4系列模型的多Token预测起草器。这一技术突破利用推测解码架构，在不牺牲输出质量和逻辑能力的前提下，将模型的推理速度最高提升了3倍。Gemma4在发布后短时间内下载量已突破6000万次，此次更新旨在解决大语言模型在实际应用中长期存在的推理瓶颈。

传统语言模型推理受限于显存带宽：处理器在生成文本时，需要耗费大量时间将数百亿个参数从显存搬运到计算单元，这种"搬运"速度远低于计算速度，导致硬件资源在大部分时间处于闲置状态。谷歌的推测解码技术采用"主从配合"模式——将重型目标模型与轻量级MTP起草器配对，由起草器利用闲置算力提前预测多个Token，再由主模型并行验证，一旦预测匹配即可在单次计算中直接确认整个序列，从而大幅缩短文本生成时间。

实测数据显示，在Apple Silicon芯片环境下batch sizes设定在4至8之间时，Gemma 4 26B模型的本地运行速度提升了约2.2倍。这意味着开发者现在可以在个人电脑或普通消费级显卡上，更流畅地运行复杂的离线编程助手或智能体工作流。此次更新主要针对低延迟需求极高的场景——即时聊天机器人、自动化编程工具以及各类自主智能体。

谷歌通过MTP起草器证明，即便在资源受限的硬件环境下，开发者依然能部署最先进的语言模型，无需在响应速度和计算精度之间做"二选一"。

工具地址：谷歌Gemma官网（海外网站需要科学上网）

谷歌Gemma4

千问PC端上线AI语音输入：各类应用中"开口"直接用，告别手动打字

5月7日，千问在PC端上线AI语音输入能力，用户通过快捷键即可在各类桌面应用中直接使用。千问语音输入法支持对口语内容去语气词、纠错、格式化整理等，能够基于上下文智能回复，还可直接下达创作、问答、翻译等指令。

千问语音输入展现出极强的语义解析能力。以一段夹杂口误的口语为例："王总，会议定在两点……不对三点，地点在老会议室，记得带那份……市场调研报告。“千问可实时过滤"那个”、"额"等冗余词并修正口误，直接输出结构化文本："王总，会议定在下午三点，地点为老会议室，请带上市场调研报告。"对口语化表达的重构不仅在于文字精简，更在于逻辑纠错与结构化整理——用户散乱地口述一段工作进展，千问可自动将其整理为要点清晰的结构化周报。

在办公或创作场景中，用户无需离开当前应用就可以通过语音指令使用千问：直接说"帮我插入2025年全国GDP数据"，千问即可在当前位置插入数据；浏览网页或阅读专业英文论文时，划选后说"帮我解释一下"或"帮我翻译一下"，千问会自动完成相应操作。在钉钉、微信或邮件场景下，用户用中文简单口述要求，千问即可在输入框生成格式正确的英文邮件回复。

目前，千问语音输入法功能已全面开放，所有用户可通过千问PC端免费使用。

工具地址：通义千问官网

千问PC端上线AI语音输入

腾讯发布OpenSearch-VL：开源多模态深度搜索智能体全家桶方案

来自腾讯混元联合加州大学洛杉矶分校、香港中文大学等机构的研究团队正式发布了OpenSearch-VL——一个完全开源的多模态深度搜索智能体路线图，旨在通过强化学习技术打造具备前沿能力的深度搜索智能体。

研究团队指出，目前阻碍模型进化的最大瓶颈在于高质量训练数据。为训练出能进行多步推理而非简单"一键识图"的模型，团队开发了一套精细的数据固化流程：利用维基百科超链接图谱进行多跳问答采样，通过模糊实体重写隐藏直接答案，并引入基于源码锚点的视觉定位技术——强迫模型先识别视觉线索，再结合外部工具逐步检索，从而避免检索过程中的"偷懒"行为。基于此，团队构建了包含3.6万条指令微调轨迹的SearchVL-SFT数据库，以及8000条强化学习的SearchVL-RL数据库。

在现实场景中，用户提供的图片往往存在模糊、歪斜或分辨率低等问题，导致搜索工具失效。为此OpenSearch-VL集成了网页搜索、反向图像搜索、OCR、图像裁剪、锐化、超分辨率重建及透视校正等多元化工具环境，智能体在查询外部知识前会像人类一样先通过"主动感知"修复不完美的视觉输入。此外，团队还提出了"多轮故障感知GRPO"训练算法，能够灵敏捕捉工具调用中的"致死点"，即使任务最终失败，也能学习到前期的有效搜索路径和探索策略。

测试结果显示，OpenSearch-VL在七项主流多模态深度搜索基准测试中平均性能提升超过10个百分点，在某些特定任务上已足以与顶级闭源商业模型相媲美。

目前团队已计划将所有训练数据、代码及模型权重全量开源，推动多模态智能体研究进入"深水区"。

论文地址：https://arxiv.org/pdf/2605.05185

腾讯发布OpenSearch-VL