谷歌发布Gemini-TTS:最强TTS模型支持近70种语言,情感节奏可精确调控
谷歌近日在Gemini3.1系列中正式推出全新文字转语音模型Gemini-TTS,官方定位直接而自信——“至今最富表现力的文本转语音解决方案”。
■ 情感节奏可用提示词精确调控
这款模型最核心的突破,在于把语音的"控制权"真正交给了开发者。以往的TTS产品,生成出来的声音往往千篇一律,语气平、节奏死、情绪单薄。Gemini-TTS则支持通过提示词直接调控语音的情感、节奏和风格——旁白需要低沉庄重,对话需要轻松自然,停顿落在哪里、情绪如何起伏,都可以用语言描述来精确控制。听感上的自然度和细腻程度,比过去的同类产品上了一个台阶。
■ 70种语言自动识别无需手动标注
多语言支持方面,Gemini-TTS覆盖约70种语言,中文普通话、英语、西班牙语、日语等主流语种均在列。更省心的是,模型可以自动识别输入文本的语种,无需开发者手动标注,直接生成对应语言的语音输出。对于需要服务全球用户的企业来说,一套API就能搞定多语种内容的语音化需求,有声读物、播客、客服机器人、教育应用都是直接受益的场景。
谷歌还强调了Gemini-TTS与同系列音频模型的协同能力,在实时对话、语音翻译和多模态交互场景中,让AI听起来更接近真实的人类交流。
详情查看: https://www.aitop100.cn/infomation/details/33647.html

腾讯发布混元3D世界模型2.0:开源无缝对接Unity和UE游戏工作流
腾讯正式推出混元3D世界模型2.0(HY-World2.0),并将其开源。该模型具备多模态能力,能够根据文本、图片和视频等不同输入形式,自动生成、重建和模拟3D世界。这一创新产品支持多种格式的3D资产导出,包括Mesh、3DGS和点云,能够与现有游戏工作流无缝衔接,帮助开发者快速生成游戏地图和关卡原型。
■ 可直接导出可二次编辑的3D资产
与之前的HY-World1.5相比,2.0版本不仅支持生成视频文件,还能直接生成可二次编辑的3D资产。开发者可以轻松将这些3D资产导入到Unity和UE等引擎中进行进一步编辑,显著降低了游戏地图创作的门槛。用户只需输入简短的文字描述,例如"生成一个日式RPG风格的中世纪地牢",便能快速生成相应的3D场景。此外HY-World2.0还支持复刻真实场景,用户通过上传视频或多视角图片,便可以构建出高精度的数字孪生空间。
■ 智能漫游规划与多风格自定义
HY-World2.0结合了空间Agent技术和导航算法,能够智能规划用户的漫游轨迹,确保高效且有趣地探索新生成的区域。通过不断优化生成过程,HY-World2.0还具备强大的新视角生成能力,保证不同场景之间的衔接自然流畅。
用户还可以自定义风格,根据需求生成真实风、漫画风或游戏风的3D空间。
申请体验地址:腾讯混元3D官网

MiniMax上线MaxHermes:全球首个云端沙箱AI技能自主提炼与进化
4月16日,MiniMax宣布全球首个云端沙箱Hermes——MaxHermes正式上线。该助手基于Hermes Agent构建,核心突破在于引入了"学习闭环"机制,使其能够从复杂任务执行中自主提炼可复用的"Skills"并保存为独立文档。与依赖人工预设能力的工具不同,MaxHermes的技能库随使用过程动态生长,并根据用户反馈实现自我迭代与改进。
■ 持久记忆与多子代理并行运行
在技术实现层面,MaxHermes整合了持久化跨会话记忆、自然语言定义的定时任务以及多子代理并行运行机制,构建了一个具备长期运行能力的进化型智能体。目前该助手主要调用MiniMax最新发布的M2.7编程模型,该模型在工具调用准确度、复杂指令遵循及Agent Harness适配性上均有显著提升,已成为Hermes生态中活跃度最高的模型之一,为Skills的自主生成与精准执行提供了底层算力保障。
■ 从"固定能力工具"向"自我进化实体"转变
MaxHermes的发布标志着AI Agent从"固定能力工具"向"自我进化实体"的转变。通过将学习闭环与模型迭代两套逻辑合而为一,MaxHermes极大地拓宽了AI处理模糊及长周期任务的能力边界。这种随使用时长不断贴合用户偏好的特性,预计将显著提升AI在个人助理与企业级自动化流中的实际渗透率与交付质量。
详情查看: https://www.aitop100.cn/infomation/details/33645.html

Adobe宣布推出Firefly AI Assistant:跨Photoshop、Premiere自主执行创作流程
4月15日,Adobe宣布推出Firefly AI Assistant——一款具备自主决策能力的创作智能体。这不是简单的功能升级,而是一次对创作工作流的整体重构。
■ 跨应用自主编排完整操作流程
它最核心的能力,是跨应用的自主执行。用户只需用自然语言描述想要达成的目标,Firefly AI Assistant就能独立规划并编排完整的操作流程,跨越Photoshop、Premiere等多款Creative Cloud核心应用完成任务,并将结果同步至各个应用。换句话说,以前需要在多个软件之间来回切换、一步步手动操作的复杂工作流,现在可以交给它统一调度。
■ 学习用户偏好保持风格一致性
个性化方面也做了不少工夫。工具内置多种创意技能,能够学习用户的操作偏好,在不同项目和应用中保持创作风格的一致性。此外,审阅功能也被直接集成其中,进一步压缩了创作到交付之间的流程摩擦。目前Firefly AI Assistant尚未正式对外发布,Beta测试者将在未来几周内获得公测版的访问权限。对于重度依赖Adobe全家桶的创作者和设计师来说,AI正在从"辅助创作"向"接管流程"迈进。
详情查看: https://www.aitop100.cn/adobe-firefly-ai-assistant

谷歌DeepMind TIPSv2:让AI真正"看懂"图片局部而非扫一眼全局
现在的AI看图其实有个隐藏的短板:问它"这张图里有什么",它能答得头头是道。但要问"图中那只熊猫的左后腿在哪里",它就开始含糊了。这不是个别模型的问题,而是整个视觉-语言大模型领域长期存在的通病——全局理解强,局部定位弱。谷歌DeepMind在最新论文中提出了TIPSv2方案,专门来啃这块硬骨头。
■ iBOT++:从"猜谜游戏"升级为"全文精读"
研究团队发现了一个反直觉的现象:在精细分割任务上,参数量少的"学生模型"表现经常碾压体量更大的"教师模型"。受此启发,TIPSv2做出了三项关键改进。第一项是iBOT++。传统预训练只对图像中被遮盖的区域计算损失,可见区域处于"放养"状态,局部语义容易漂移。iBOT++要求模型同时对所有可见区域进行精确监督,相当于从"猜谜游戏"升级为"全文精读"。仅这一项改动,零样本分割性能就直接提升了14.1个百分点。
■ Head-only EMA:训练参数量缩减42%
第二项是Head-only EMA。传统自监督训练需要在显存里维护两份几乎相同的大模型,开销极大。TIPSv2发现图文对比损失本身已经能稳定主干网络,因此EMA只需作用于最后的投影头,主干不再复制。结果是训练参数量直接缩减约42%,速度更快,性能几乎无损。第三项是多粒度文本搭配,训练时将网页简短描述、中等详细描述和Gemini生成的长描述混合随机喂给模型,难易交替,既防止模型因任务太简单而"偷懒",又确保细节不丢失。
■ 零样本分割刷新业界最优
最终效果相当扎实。TIPSv2在9大任务、20个权威数据集上完成冻结评估,零样本语义分割刷新业界最优,图文检索与分类击败了参数量比自身大56%的对比模型,纯视觉任务也全面跻身前列。
目前TIPSv2的代码与模型权重已全面开源,对于医疗影像、自动驾驶、工业检测等需要高精度图像理解的团队来说,这套方案值得认真评估。
论文地址:https://www.alphaxiv.org/abs/2604.12012

阿里巴巴ATH推出Happy Oyster开放世界模型:开启实时交互体验申请
阿里巴巴ATH团队今日宣布,其全新开放世界模型产品Happy Oyster正式开启早期体验申请。作为继HappyHorse之后的又一重磅发布,Happy Oyster主打实时世界的创建与交互能力,标志着阿里巴巴ATH的技术布局已从纯粹的视频生成领域,进一步延伸至更具挑战性的交互式世界模型赛道。
■ 视频编辑冠军HappyHorse为ATH技术背书
在此次新品发布前夕,权威AI模型评测平台LM Arena刚公布了最新Video Edit视频编辑方向排行榜。数据显示,阿里巴巴ATH事业群旗下的happyhorse-1.0模型凭借1299分的Elo评分位列全球榜首,成功超越Grok等国际主流模型,展现了该团队在多模态视觉处理领域的深厚技术积淀。这是中国AI团队首次在该评测方向榜单中获得第一。
■ 从"静态内容生成"向"动态可交互环境"进化
Happy Oyster的推出不仅是阿里巴巴在生成式AI领域的一次关键发力,更反映了行业正从"静态内容生成"向"动态可交互环境"进化的技术趋势。通过构建能够实时响应用户指令并进行逻辑交互的开放世界,阿里ATH旨在为游戏开发、虚拟仿真及创意设计提供更高维度的生产力工具,持续巩固其在全球AI第一梯队的竞争优势。感兴趣的用户可通过官网happyoyster.cn提交体验申请。
工具地址: https://www.happyoyster.cn/

Claude启动身份验证:表面合规实为定向封堵,国内用户陷入"验也死、不验也死"死局
2026年4月15日,Anthropic官方支持页面更新,明确为Claude部分用例推出身份验证,要求用户提供政府签发带照片的实体证件原件(护照、驾照等),并配合实时自拍,流程类似金融级KYC。对中国用户而言,这绝非简单的"实名升级",而是一场明晃晃的"区域封锁"。
■ 验证要求有多严?
证件类型方面,仅接受护照、驾照、国家身份证等政府签发实体原件,复印件、截图、扫描件、电子证件全部拒收;验证流程需手持证件原件完成实时自拍,由第三方服务商Persona核验,全程约5分钟。官方明确表示,即使完成验证,从不支持地区创建的账号仍可能被禁用。
■ 对中国用户的杀伤力
中国大陆本就不在Claude官方支持地区,这意味着:提交中国护照/身份证验证,等于主动告知平台"我来自不支持地区",账号面临直接封禁风险;不验证则无法使用Claude高级功能,日常体验大打折扣,陷入"验也死、不验也死"的死局。此前靠接码平台、代理工具注册的账号,现在需刷脸验身,成本和难度飙升,几乎无路可退。
■ 背后的三重逻辑
Anthropic嘴上说着"防止滥用、履行法律义务",实际藏着三层核心考量:合规与风控方面,美国出口管制政策下,需通过强实名阻止模型蒸馏、违规使用等行为,降低监管风险;地缘限制方面,2025年9月已禁止中国资本控股超50%的实体使用Claude,此次验证是进一步收紧非支持地区用户的使用门槛;商业筛选方面,优先保障企业用户、合规用户的体验,对普通用户尤其是非支持地区用户形成隐性排斥。
■ 避坑指南:3件事千万别做
不要提交中国护照/身份证验证,大概率触发"从不支持地区创建"封禁理由,得不偿失;不要用共享账号、中转服务,官方已将这类接入方式列为2026年第一大封禁诱因,零容忍;不要频繁切换IP或节点,容易触发风控排查,进一步加重账号风险。可行方案包括:合规海外账号(需海外手机号和支付渠道)、国产模型替代(免费/低价,适配中文场景,无地域限制)、合规第三方工具(选有资质平台,避免数据泄露)。
■ 国产模型正当时
智谱AI GLM-4:API兼容Claude协议,可直接替换,适配企业级场景;通义千问2.0:阿里自研,中文理解能力强,支持零代码开发、多模态生成;文心一言4.0:百度旗下,搜索整合能力突出,适合内容创作、数据分析;DeepSeek:代码生成、逻辑推理能力优秀,适配技术类场景。
Claude的收紧本质是地缘博弈下的"区域壁垒",但对国产AI行业而言,却是倒逼升级的催化剂。技术突围倒逼国内企业加大研发投入,生态完善推动国产模型API和工具链完善,用户沉淀让中国用户更倾向本土产品。
详情查看: https://www.aitop100.cn/infomation/details/33649.html

AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










