• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI漫剧创作热门-AI社区
AI 对话

每日AI资讯-2026年4月16日

每日AI资讯-2026年4月16日
AI TOP100
1天前

谷歌发布Gemini-TTS:最强TTS模型支持近70种语言,情感节奏可精确调控

谷歌近日在Gemini3.1系列中正式推出全新文字转语音模型Gemini-TTS,官方定位直接而自信——“至今最富表现力的文本转语音解决方案”。

■ 情感节奏可用提示词精确调控

这款模型最核心的突破,在于把语音的"控制权"真正交给了开发者。以往的TTS产品,生成出来的声音往往千篇一律,语气平、节奏死、情绪单薄。Gemini-TTS则支持通过提示词直接调控语音的情感、节奏和风格——旁白需要低沉庄重,对话需要轻松自然,停顿落在哪里、情绪如何起伏,都可以用语言描述来精确控制。听感上的自然度和细腻程度,比过去的同类产品上了一个台阶。

■ 70种语言自动识别无需手动标注

多语言支持方面,Gemini-TTS覆盖约70种语言,中文普通话、英语、西班牙语、日语等主流语种均在列。更省心的是,模型可以自动识别输入文本的语种,无需开发者手动标注,直接生成对应语言的语音输出。对于需要服务全球用户的企业来说,一套API就能搞定多语种内容的语音化需求,有声读物、播客、客服机器人、教育应用都是直接受益的场景。

谷歌还强调了Gemini-TTS与同系列音频模型的协同能力,在实时对话、语音翻译和多模态交互场景中,让AI听起来更接近真实的人类交流。

详情查看: https://www.aitop100.cn/infomation/details/33647.html

谷歌发布Gemini-TTS

腾讯发布混元3D世界模型2.0:开源无缝对接Unity和UE游戏工作流

腾讯正式推出混元3D世界模型2.0(HY-World2.0),并将其开源。该模型具备多模态能力,能够根据文本、图片和视频等不同输入形式,自动生成、重建和模拟3D世界。这一创新产品支持多种格式的3D资产导出,包括Mesh、3DGS和点云,能够与现有游戏工作流无缝衔接,帮助开发者快速生成游戏地图和关卡原型。

■ 可直接导出可二次编辑的3D资产

与之前的HY-World1.5相比,2.0版本不仅支持生成视频文件,还能直接生成可二次编辑的3D资产。开发者可以轻松将这些3D资产导入到Unity和UE等引擎中进行进一步编辑,显著降低了游戏地图创作的门槛。用户只需输入简短的文字描述,例如"生成一个日式RPG风格的中世纪地牢",便能快速生成相应的3D场景。此外HY-World2.0还支持复刻真实场景,用户通过上传视频或多视角图片,便可以构建出高精度的数字孪生空间。

■ 智能漫游规划与多风格自定义

HY-World2.0结合了空间Agent技术和导航算法,能够智能规划用户的漫游轨迹,确保高效且有趣地探索新生成的区域。通过不断优化生成过程,HY-World2.0还具备强大的新视角生成能力,保证不同场景之间的衔接自然流畅。

用户还可以自定义风格,根据需求生成真实风、漫画风或游戏风的3D空间。

申请体验地址:腾讯混元3D官网

混元3D世界模型2.0

MiniMax上线MaxHermes:全球首个云端沙箱AI技能自主提炼与进化

4月16日,MiniMax宣布全球首个云端沙箱Hermes——MaxHermes正式上线。该助手基于Hermes Agent构建,核心突破在于引入了"学习闭环"机制,使其能够从复杂任务执行中自主提炼可复用的"Skills"并保存为独立文档。与依赖人工预设能力的工具不同,MaxHermes的技能库随使用过程动态生长,并根据用户反馈实现自我迭代与改进。

■ 持久记忆与多子代理并行运行

在技术实现层面,MaxHermes整合了持久化跨会话记忆、自然语言定义的定时任务以及多子代理并行运行机制,构建了一个具备长期运行能力的进化型智能体。目前该助手主要调用MiniMax最新发布的M2.7编程模型,该模型在工具调用准确度、复杂指令遵循及Agent Harness适配性上均有显著提升,已成为Hermes生态中活跃度最高的模型之一,为Skills的自主生成与精准执行提供了底层算力保障。

■ 从"固定能力工具"向"自我进化实体"转变

MaxHermes的发布标志着AI Agent从"固定能力工具"向"自我进化实体"的转变。通过将学习闭环与模型迭代两套逻辑合而为一,MaxHermes极大地拓宽了AI处理模糊及长周期任务的能力边界。这种随使用时长不断贴合用户偏好的特性,预计将显著提升AI在个人助理与企业级自动化流中的实际渗透率与交付质量。

详情查看: https://www.aitop100.cn/infomation/details/33645.html

MiniMax上线MaxHermes

Adobe宣布推出Firefly AI Assistant:跨Photoshop、Premiere自主执行创作流程

4月15日,Adobe宣布推出Firefly AI Assistant——一款具备自主决策能力的创作智能体。这不是简单的功能升级,而是一次对创作工作流的整体重构。

■ 跨应用自主编排完整操作流程

它最核心的能力,是跨应用的自主执行。用户只需用自然语言描述想要达成的目标,Firefly AI Assistant就能独立规划并编排完整的操作流程,跨越Photoshop、Premiere等多款Creative Cloud核心应用完成任务,并将结果同步至各个应用。换句话说,以前需要在多个软件之间来回切换、一步步手动操作的复杂工作流,现在可以交给它统一调度。

■ 学习用户偏好保持风格一致性

个性化方面也做了不少工夫。工具内置多种创意技能,能够学习用户的操作偏好,在不同项目和应用中保持创作风格的一致性。此外,审阅功能也被直接集成其中,进一步压缩了创作到交付之间的流程摩擦。目前Firefly AI Assistant尚未正式对外发布,Beta测试者将在未来几周内获得公测版的访问权限。对于重度依赖Adobe全家桶的创作者和设计师来说,AI正在从"辅助创作"向"接管流程"迈进。

详情查看: https://www.aitop100.cn/adobe-firefly-ai-assistant

Firefly AI Assistant

谷歌DeepMind TIPSv2:让AI真正"看懂"图片局部而非扫一眼全局

现在的AI看图其实有个隐藏的短板:问它"这张图里有什么",它能答得头头是道。但要问"图中那只熊猫的左后腿在哪里",它就开始含糊了。这不是个别模型的问题,而是整个视觉-语言大模型领域长期存在的通病——全局理解强,局部定位弱。谷歌DeepMind在最新论文中提出了TIPSv2方案,专门来啃这块硬骨头。

■ iBOT++:从"猜谜游戏"升级为"全文精读"

研究团队发现了一个反直觉的现象:在精细分割任务上,参数量少的"学生模型"表现经常碾压体量更大的"教师模型"。受此启发,TIPSv2做出了三项关键改进。第一项是iBOT++。传统预训练只对图像中被遮盖的区域计算损失,可见区域处于"放养"状态,局部语义容易漂移。iBOT++要求模型同时对所有可见区域进行精确监督,相当于从"猜谜游戏"升级为"全文精读"。仅这一项改动,零样本分割性能就直接提升了14.1个百分点。

■ Head-only EMA:训练参数量缩减42%

第二项是Head-only EMA。传统自监督训练需要在显存里维护两份几乎相同的大模型,开销极大。TIPSv2发现图文对比损失本身已经能稳定主干网络,因此EMA只需作用于最后的投影头,主干不再复制。结果是训练参数量直接缩减约42%,速度更快,性能几乎无损。第三项是多粒度文本搭配,训练时将网页简短描述、中等详细描述和Gemini生成的长描述混合随机喂给模型,难易交替,既防止模型因任务太简单而"偷懒",又确保细节不丢失。

■ 零样本分割刷新业界最优

最终效果相当扎实。TIPSv2在9大任务、20个权威数据集上完成冻结评估,零样本语义分割刷新业界最优,图文检索与分类击败了参数量比自身大56%的对比模型,纯视觉任务也全面跻身前列。

目前TIPSv2的代码与模型权重已全面开源,对于医疗影像、自动驾驶、工业检测等需要高精度图像理解的团队来说,这套方案值得认真评估。

论文地址:https://www.alphaxiv.org/abs/2604.12012

谷歌DeepMind TIPSv2

阿里巴巴ATH推出Happy Oyster开放世界模型:开启实时交互体验申请

阿里巴巴ATH团队今日宣布,其全新开放世界模型产品Happy Oyster正式开启早期体验申请。作为继HappyHorse之后的又一重磅发布,Happy Oyster主打实时世界的创建与交互能力,标志着阿里巴巴ATH的技术布局已从纯粹的视频生成领域,进一步延伸至更具挑战性的交互式世界模型赛道。

■ 视频编辑冠军HappyHorse为ATH技术背书

在此次新品发布前夕,权威AI模型评测平台LM Arena刚公布了最新Video Edit视频编辑方向排行榜。数据显示,阿里巴巴ATH事业群旗下的happyhorse-1.0模型凭借1299分的Elo评分位列全球榜首,成功超越Grok等国际主流模型,展现了该团队在多模态视觉处理领域的深厚技术积淀。这是中国AI团队首次在该评测方向榜单中获得第一。

■ 从"静态内容生成"向"动态可交互环境"进化

Happy Oyster的推出不仅是阿里巴巴在生成式AI领域的一次关键发力,更反映了行业正从"静态内容生成"向"动态可交互环境"进化的技术趋势。通过构建能够实时响应用户指令并进行逻辑交互的开放世界,阿里ATH旨在为游戏开发、虚拟仿真及创意设计提供更高维度的生产力工具,持续巩固其在全球AI第一梯队的竞争优势。感兴趣的用户可通过官网happyoyster.cn提交体验申请。

工具地址: https://www.happyoyster.cn/

Happy Oyster

Claude启动身份验证:表面合规实为定向封堵,国内用户陷入"验也死、不验也死"死局

2026年4月15日,Anthropic官方支持页面更新,明确为Claude部分用例推出身份验证,要求用户提供政府签发带照片的实体证件原件(护照、驾照等),并配合实时自拍,流程类似金融级KYC。对中国用户而言,这绝非简单的"实名升级",而是一场明晃晃的"区域封锁"。

■ 验证要求有多严?

证件类型方面,仅接受护照、驾照、国家身份证等政府签发实体原件,复印件、截图、扫描件、电子证件全部拒收;验证流程需手持证件原件完成实时自拍,由第三方服务商Persona核验,全程约5分钟。官方明确表示,即使完成验证,从不支持地区创建的账号仍可能被禁用。

■ 对中国用户的杀伤力

中国大陆本就不在Claude官方支持地区,这意味着:提交中国护照/身份证验证,等于主动告知平台"我来自不支持地区",账号面临直接封禁风险;不验证则无法使用Claude高级功能,日常体验大打折扣,陷入"验也死、不验也死"的死局。此前靠接码平台、代理工具注册的账号,现在需刷脸验身,成本和难度飙升,几乎无路可退。

■ 背后的三重逻辑

Anthropic嘴上说着"防止滥用、履行法律义务",实际藏着三层核心考量:合规与风控方面,美国出口管制政策下,需通过强实名阻止模型蒸馏、违规使用等行为,降低监管风险;地缘限制方面,2025年9月已禁止中国资本控股超50%的实体使用Claude,此次验证是进一步收紧非支持地区用户的使用门槛;商业筛选方面,优先保障企业用户、合规用户的体验,对普通用户尤其是非支持地区用户形成隐性排斥。

■ 避坑指南:3件事千万别做

不要提交中国护照/身份证验证,大概率触发"从不支持地区创建"封禁理由,得不偿失;不要用共享账号、中转服务,官方已将这类接入方式列为2026年第一大封禁诱因,零容忍;不要频繁切换IP或节点,容易触发风控排查,进一步加重账号风险。可行方案包括:合规海外账号(需海外手机号和支付渠道)、国产模型替代(免费/低价,适配中文场景,无地域限制)、合规第三方工具(选有资质平台,避免数据泄露)。

■ 国产模型正当时

智谱AI GLM-4:API兼容Claude协议,可直接替换,适配企业级场景;通义千问2.0:阿里自研,中文理解能力强,支持零代码开发、多模态生成;文心一言4.0:百度旗下,搜索整合能力突出,适合内容创作、数据分析;DeepSeek:代码生成、逻辑推理能力优秀,适配技术类场景。

Claude的收紧本质是地缘博弈下的"区域壁垒",但对国产AI行业而言,却是倒逼升级的催化剂。技术突围倒逼国内企业加大研发投入,生态完善推动国产模型API和工具链完善,用户沉淀让中国用户更倾向本土产品。

详情查看: https://www.aitop100.cn/infomation/details/33649.html

Claude启动身份验证


AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。

想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说

AITOP100平台官方交流社群二维码:

AITOP100平台官方交流社群二维码二维码

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • 谷歌Gemini
  • 腾讯混元3D
  • Minimax
  • Claude
相关资讯
  • 每日AI资讯-2026年4月17日

  • 每日AI资讯-2026年4月16日

  • 每日AI资讯-2026年4月15日

  • 每日AI资讯-2026年4月14日

  • 每日AI资讯-2026年4月13日

热点资讯

被全网刷屏的SBTI,背后没有心理学专家,只有一个想劝人戒酒的AI

7天前
被全网刷屏的SBTI,背后没有心理学专家,只有一个想劝人戒酒的AI

每日AI资讯-2026年4月16日

1天前
每日AI资讯-2026年4月16日

每日AI资讯-2026年4月09日

8天前
每日AI资讯-2026年4月09日

谷歌Gemini发布最强TTS模型,用嘴"描述"就能控制语音情感

2天前
谷歌Gemini发布最强TTS模型,用嘴"描述"就能控制语音情感

Claude启动身份验证,国内用户的避坑指南与平替方案

2天前
Claude启动身份验证,国内用户的避坑指南与平替方案
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有