每日AI资讯-2026年4月16日-AITOP100,AI资讯

谷歌发布Gemini-TTS：最强TTS模型支持近70种语言，情感节奏可精确调控

谷歌近日在Gemini3.1系列中正式推出全新文字转语音模型Gemini-TTS，官方定位直接而自信——“至今最富表现力的文本转语音解决方案”。

■ 情感节奏可用提示词精确调控

这款模型最核心的突破，在于把语音的"控制权"真正交给了开发者。以往的TTS产品，生成出来的声音往往千篇一律，语气平、节奏死、情绪单薄。Gemini-TTS则支持通过提示词直接调控语音的情感、节奏和风格——旁白需要低沉庄重，对话需要轻松自然，停顿落在哪里、情绪如何起伏，都可以用语言描述来精确控制。听感上的自然度和细腻程度，比过去的同类产品上了一个台阶。

■ 70种语言自动识别无需手动标注

多语言支持方面，Gemini-TTS覆盖约70种语言，中文普通话、英语、西班牙语、日语等主流语种均在列。更省心的是，模型可以自动识别输入文本的语种，无需开发者手动标注，直接生成对应语言的语音输出。对于需要服务全球用户的企业来说，一套API就能搞定多语种内容的语音化需求，有声读物、播客、客服机器人、教育应用都是直接受益的场景。

谷歌还强调了Gemini-TTS与同系列音频模型的协同能力，在实时对话、语音翻译和多模态交互场景中，让AI听起来更接近真实的人类交流。

详情查看： https://www.aitop100.cn/infomation/details/33647.html

谷歌发布Gemini-TTS

腾讯发布混元3D世界模型2.0：开源无缝对接Unity和UE游戏工作流

腾讯正式推出混元3D世界模型2.0（HY-World2.0），并将其开源。该模型具备多模态能力，能够根据文本、图片和视频等不同输入形式，自动生成、重建和模拟3D世界。这一创新产品支持多种格式的3D资产导出，包括Mesh、3DGS和点云，能够与现有游戏工作流无缝衔接，帮助开发者快速生成游戏地图和关卡原型。

■ 可直接导出可二次编辑的3D资产

与之前的HY-World1.5相比，2.0版本不仅支持生成视频文件，还能直接生成可二次编辑的3D资产。开发者可以轻松将这些3D资产导入到Unity和UE等引擎中进行进一步编辑，显著降低了游戏地图创作的门槛。用户只需输入简短的文字描述，例如"生成一个日式RPG风格的中世纪地牢"，便能快速生成相应的3D场景。此外HY-World2.0还支持复刻真实场景，用户通过上传视频或多视角图片，便可以构建出高精度的数字孪生空间。

■ 智能漫游规划与多风格自定义

HY-World2.0结合了空间Agent技术和导航算法，能够智能规划用户的漫游轨迹，确保高效且有趣地探索新生成的区域。通过不断优化生成过程，HY-World2.0还具备强大的新视角生成能力，保证不同场景之间的衔接自然流畅。

用户还可以自定义风格，根据需求生成真实风、漫画风或游戏风的3D空间。

申请体验地址：腾讯混元3D官网

混元3D世界模型2.0

MiniMax上线MaxHermes：全球首个云端沙箱AI技能自主提炼与进化

4月16日，MiniMax宣布全球首个云端沙箱Hermes——MaxHermes正式上线。该助手基于Hermes Agent构建，核心突破在于引入了"学习闭环"机制，使其能够从复杂任务执行中自主提炼可复用的"Skills"并保存为独立文档。与依赖人工预设能力的工具不同，MaxHermes的技能库随使用过程动态生长，并根据用户反馈实现自我迭代与改进。

■ 持久记忆与多子代理并行运行

在技术实现层面，MaxHermes整合了持久化跨会话记忆、自然语言定义的定时任务以及多子代理并行运行机制，构建了一个具备长期运行能力的进化型智能体。目前该助手主要调用MiniMax最新发布的M2.7编程模型，该模型在工具调用准确度、复杂指令遵循及Agent Harness适配性上均有显著提升，已成为Hermes生态中活跃度最高的模型之一，为Skills的自主生成与精准执行提供了底层算力保障。

■ 从"固定能力工具"向"自我进化实体"转变

MaxHermes的发布标志着AI Agent从"固定能力工具"向"自我进化实体"的转变。通过将学习闭环与模型迭代两套逻辑合而为一，MaxHermes极大地拓宽了AI处理模糊及长周期任务的能力边界。这种随使用时长不断贴合用户偏好的特性，预计将显著提升AI在个人助理与企业级自动化流中的实际渗透率与交付质量。

详情查看： https://www.aitop100.cn/infomation/details/33645.html

MiniMax上线MaxHermes

Adobe宣布推出Firefly AI Assistant：跨Photoshop、Premiere自主执行创作流程

4月15日，Adobe宣布推出Firefly AI Assistant——一款具备自主决策能力的创作智能体。这不是简单的功能升级，而是一次对创作工作流的整体重构。

■ 跨应用自主编排完整操作流程

它最核心的能力，是跨应用的自主执行。用户只需用自然语言描述想要达成的目标，Firefly AI Assistant就能独立规划并编排完整的操作流程，跨越Photoshop、Premiere等多款Creative Cloud核心应用完成任务，并将结果同步至各个应用。换句话说，以前需要在多个软件之间来回切换、一步步手动操作的复杂工作流，现在可以交给它统一调度。

■ 学习用户偏好保持风格一致性

个性化方面也做了不少工夫。工具内置多种创意技能，能够学习用户的操作偏好，在不同项目和应用中保持创作风格的一致性。此外，审阅功能也被直接集成其中，进一步压缩了创作到交付之间的流程摩擦。目前Firefly AI Assistant尚未正式对外发布，Beta测试者将在未来几周内获得公测版的访问权限。对于重度依赖Adobe全家桶的创作者和设计师来说，AI正在从"辅助创作"向"接管流程"迈进。

详情查看： https://www.aitop100.cn/adobe-firefly-ai-assistant

Firefly AI Assistant

谷歌DeepMind TIPSv2：让AI真正"看懂"图片局部而非扫一眼全局

现在的AI看图其实有个隐藏的短板：问它"这张图里有什么"，它能答得头头是道。但要问"图中那只熊猫的左后腿在哪里"，它就开始含糊了。这不是个别模型的问题，而是整个视觉-语言大模型领域长期存在的通病——全局理解强，局部定位弱。谷歌DeepMind在最新论文中提出了TIPSv2方案，专门来啃这块硬骨头。

■ iBOT++：从"猜谜游戏"升级为"全文精读"

研究团队发现了一个反直觉的现象：在精细分割任务上，参数量少的"学生模型"表现经常碾压体量更大的"教师模型"。受此启发，TIPSv2做出了三项关键改进。第一项是iBOT++。传统预训练只对图像中被遮盖的区域计算损失，可见区域处于"放养"状态，局部语义容易漂移。iBOT++要求模型同时对所有可见区域进行精确监督，相当于从"猜谜游戏"升级为"全文精读"。仅这一项改动，零样本分割性能就直接提升了14.1个百分点。

■ Head-only EMA：训练参数量缩减42%

第二项是Head-only EMA。传统自监督训练需要在显存里维护两份几乎相同的大模型，开销极大。TIPSv2发现图文对比损失本身已经能稳定主干网络，因此EMA只需作用于最后的投影头，主干不再复制。结果是训练参数量直接缩减约42%，速度更快，性能几乎无损。第三项是多粒度文本搭配，训练时将网页简短描述、中等详细描述和Gemini生成的长描述混合随机喂给模型，难易交替，既防止模型因任务太简单而"偷懒"，又确保细节不丢失。

■ 零样本分割刷新业界最优

最终效果相当扎实。TIPSv2在9大任务、20个权威数据集上完成冻结评估，零样本语义分割刷新业界最优，图文检索与分类击败了参数量比自身大56%的对比模型，纯视觉任务也全面跻身前列。

目前TIPSv2的代码与模型权重已全面开源，对于医疗影像、自动驾驶、工业检测等需要高精度图像理解的团队来说，这套方案值得认真评估。

论文地址：https://www.alphaxiv.org/abs/2604.12012

谷歌DeepMind TIPSv2

阿里巴巴ATH推出Happy Oyster开放世界模型：开启实时交互体验申请

阿里巴巴ATH团队今日宣布，其全新开放世界模型产品Happy Oyster正式开启早期体验申请。作为继HappyHorse之后的又一重磅发布，Happy Oyster主打实时世界的创建与交互能力，标志着阿里巴巴ATH的技术布局已从纯粹的视频生成领域，进一步延伸至更具挑战性的交互式世界模型赛道。

■ 视频编辑冠军HappyHorse为ATH技术背书

在此次新品发布前夕，权威AI模型评测平台LM Arena刚公布了最新Video Edit视频编辑方向排行榜。数据显示，阿里巴巴ATH事业群旗下的happyhorse-1.0模型凭借1299分的Elo评分位列全球榜首，成功超越Grok等国际主流模型，展现了该团队在多模态视觉处理领域的深厚技术积淀。这是中国AI团队首次在该评测方向榜单中获得第一。

■ 从"静态内容生成"向"动态可交互环境"进化

Happy Oyster的推出不仅是阿里巴巴在生成式AI领域的一次关键发力，更反映了行业正从"静态内容生成"向"动态可交互环境"进化的技术趋势。通过构建能够实时响应用户指令并进行逻辑交互的开放世界，阿里ATH旨在为游戏开发、虚拟仿真及创意设计提供更高维度的生产力工具，持续巩固其在全球AI第一梯队的竞争优势。感兴趣的用户可通过官网happyoyster.cn提交体验申请。

工具地址： https://www.happyoyster.cn/

Happy Oyster

Claude启动身份验证：表面合规实为定向封堵，国内用户陷入"验也死、不验也死"死局

2026年4月15日，Anthropic官方支持页面更新，明确为Claude部分用例推出身份验证，要求用户提供政府签发带照片的实体证件原件（护照、驾照等），并配合实时自拍，流程类似金融级KYC。对中国用户而言，这绝非简单的"实名升级"，而是一场明晃晃的"区域封锁"。

■ 验证要求有多严？

证件类型方面，仅接受护照、驾照、国家身份证等政府签发实体原件，复印件、截图、扫描件、电子证件全部拒收；验证流程需手持证件原件完成实时自拍，由第三方服务商Persona核验，全程约5分钟。官方明确表示，即使完成验证，从不支持地区创建的账号仍可能被禁用。

■ 对中国用户的杀伤力

中国大陆本就不在Claude官方支持地区，这意味着：提交中国护照/身份证验证，等于主动告知平台"我来自不支持地区"，账号面临直接封禁风险；不验证则无法使用Claude高级功能，日常体验大打折扣，陷入"验也死、不验也死"的死局。此前靠接码平台、代理工具注册的账号，现在需刷脸验身，成本和难度飙升，几乎无路可退。

■ 背后的三重逻辑

Anthropic嘴上说着"防止滥用、履行法律义务"，实际藏着三层核心考量：合规与风控方面，美国出口管制政策下，需通过强实名阻止模型蒸馏、违规使用等行为，降低监管风险；地缘限制方面，2025年9月已禁止中国资本控股超50%的实体使用Claude，此次验证是进一步收紧非支持地区用户的使用门槛；商业筛选方面，优先保障企业用户、合规用户的体验，对普通用户尤其是非支持地区用户形成隐性排斥。

■ 避坑指南：3件事千万别做

不要提交中国护照/身份证验证，大概率触发"从不支持地区创建"封禁理由，得不偿失；不要用共享账号、中转服务，官方已将这类接入方式列为2026年第一大封禁诱因，零容忍；不要频繁切换IP或节点，容易触发风控排查，进一步加重账号风险。可行方案包括：合规海外账号（需海外手机号和支付渠道）、国产模型替代（免费/低价，适配中文场景，无地域限制）、合规第三方工具（选有资质平台，避免数据泄露）。

■ 国产模型正当时

智谱AI GLM-4：API兼容Claude协议，可直接替换，适配企业级场景；通义千问2.0：阿里自研，中文理解能力强，支持零代码开发、多模态生成；文心一言4.0：百度旗下，搜索整合能力突出，适合内容创作、数据分析；DeepSeek：代码生成、逻辑推理能力优秀，适配技术类场景。

Claude的收紧本质是地缘博弈下的"区域壁垒"，但对国产AI行业而言，却是倒逼升级的催化剂。技术突围倒逼国内企业加大研发投入，生态完善推动国产模型API和工具链完善，用户沉淀让中国用户更倾向本土产品。

详情查看： https://www.aitop100.cn/infomation/details/33649.html

Claude启动身份验证