每日AI资讯-05月20日-AITOP100,AI资讯

谷歌Imagen4系列震撼登场，AI图像生成再攀高峰

嘿，各位科技爱好者！最近谷歌又有大动作啦，谷歌云平台（GCP）Vertex AI的配额下拉菜单里，新增了Imagen4和Imagen4Fast选项，这俩可是下一代AI图像生成模型，看来要掀起一场视觉创作风暴啦！

Imagen4和Imagen4Fast是谷歌基于Gemini2.5架构打造的。Imagen4在图像生成质量上那叫一个牛，通过增强的扩散变换器和高效特征蒸馏技术，图像细节、色彩真实性和复杂场景生成能力大幅提升。就像输入“赛博朋克城市夜景”，3秒就能生成8K分辨率图像，细节逼真度比Imagen3还高20%呢！Imagen4Fast则主打低延迟，单张图像生成时间低至1秒，特别适合实时应用，比如虚拟会议背景生成，而且生成质量还能保持90%，推理延迟比标准版降低50%，资源受限设备用着也超棒。

谷歌在GCP Vertex AI配额菜单更新，说明Imagen4系列要从测试阶段走向全面可用啦。开发者现在能通过Google Cloud Console查看和申请配额，还能按地区调整。它采用动态共享配额系统，能根据需求动态分配资源，高并发场景下超实用，像电商平台批量生成产品图像就再合适不过了。

这俩模型功能可丰富了，支持文本到图像、图像编辑、图像超分辨率和视觉问答。和Vertex AI API深度整合，开发者用Python SDK就能快速调用。不过部分功能得通过Trusted Tester Program审批，配额限制也可能导致429错误，企业用户得提前申请配额提升。开发者们对这俩模型期待满满，社交媒体上都在讨论，未来AI图像生成领域估计要变天啦！

谷歌Imagen4

Flowith Agent NEO来袭，AI智能代理开启无限可能

家人们，最近科技圈出了个超厉害的产品——Flowith发布的Agent NEO，号称全球首款支持无限步骤、无限上下文、无限工具的AI智能代理，这简直是AI领域的一大突破啊！

Agent NEO太牛了，它有10M token上下文窗口，能支持1000 +推理步骤。在单一工作流里能执行无限步骤，处理长达数小时甚至数月的复杂任务，像写百万字小说、开发3D游戏都不在话下。它的核心功能超强大，无限步骤适合超长周期项目，无限上下文能处理超大规模数据，无限工具能动态调用各种工具满足多样化需求，还支持多模态协作，提升创作效率。

这产品技术亮点也不少，依托Flowith的多线程画布界面，突破传统线性对话模式，用户能在二维画布上和多个AI代理同时交互。云端执行能力强，处理能力高达10petaflops。Oracle智能调度能自动分解复杂任务，知识花园能自动整理上传的文档等内容，还支持多种文件格式和OCR功能。

它的应用场景也超广泛，内容创作能生成长篇小说、剧本等；学术研究能整理文献和笔记，生成研究报告；软件开发能生成3D游戏、自动化编码；还能实时监控AI动态，生成每日摘要。

它在社交媒体和开发者社区可火了，GitHub仓库发布后迅速获得3000+星。开发者反馈它解决了传统对话模型历史记录追溯的痛点，带来沉浸式体验。不过处理超长任务时云端成本可能上升。

Agent NEO的发布标志着AI代理从单一任务执行向无限协作转型，虽然云端依赖可能增加对网络稳定性的要求，但它的开源潜力也可能激励国产模型探索类似架构，未来肯定能在多个领域大放异彩！

Flowith Agent NEO

美团“NoCode”AI编程工具来袭，非程序员也能轻松编程

家人们，美团又有新动作啦！它即将推出一款名为“NoCode”的AI编程工具，目前网站正处于灰度测试阶段，看来是要给编程领域带来一场变革啊！

这“NoCode”工具可不一般，它由美团研发质量与效率团队打造，定位于“Vibe Coding（氛围编程）”赛道，主打“人人可用”的AI编程体验。和Cursor这类辅助编程工具、Devin这类AI自主编程工具不同，它更接近Lovable产品，面向非程序员用户，通过自然语言多轮对话就能完成代码生成、部署和修改。数据分析、原型设计、运营工具搭建和门户网站构建等场景都能用。

美团推出这产品的动因是，想把AI编程能力普及到更广泛的用户群体，尤其是平台上的中小商家和运营人员。这产品最早起源于美团内部的AI黑客松活动，现在已和美团技术体系打通，在多个业务线真实场景中投入使用，运营和地推人员用它自主开发功能原型，满足了不少长尾需求。

美团CEO王兴在财报会议中也提到了AI战略，“NoCode”就是“AI in Products”的代表项目。而且“AI at Work”方面，美团也在推进“CatPaw”AI开发工具，服务内部技术团队，效果还挺显著，研发团队AI代码生成占比达50%，研发人员周活跃率超80%。

另外，美团高层还在加码AI方向，研发AI原生的“专属生活小秘书”产品。随着“LongCat”大模型迭代和AI人才招募，美团在AI领域估计会有更多产品发布。“NoCode”上线后，不知道会给编程领域带来怎样的惊喜，咱们就拭目以待吧！

NoCode

Omni-R1音频问答模型来袭，文本推理助力音频性能提升

嘿，科技迷们！最近MIT CSAIL、哥廷根大学、IBM研究所等机构的研究团队搞出了个新玩意儿——Omni-R1音频问答模型，在音频问答领域那可是大放异彩啊！

这Omni-R1模型在著名的MMAU基准测试中创造了新成绩，涵盖了声音、语音和音乐等多个音频类别。研究团队发现，它性能提升的关键竟然是文本推理能力的增强，就算只用文本数据进行微调，表现也有显著提升。

为了提升模型准确性，研究人员利用ChatGPT生成了大量音频问答数据，创建了AVQA-GPT和VGGS-GPT两个新数据集，分别包含4万和18.2万条音频数据。在训练过程中，Omni-R1表现超过了以往的基线模型，平均得分达到71.3%。虽然用音频微调比只用文本效果稍好，但文本的贡献也不容忽视。

GRPO方法是这模型的一大亮点，它内存效率高，在48GB的GPU上就能有效运行。它通过比较分组输出，基于答案正确性进行奖励，不用复杂的价值函数。研究人员还通过扩展Qwen-2Audio的音频描述来增加训练数据，让模型在多模态任务上更具竞争力。

Omni-R1不仅在音频问答领域树立了新标杆，还展示了文本推理在音频模型性能中的重要性。未来研究团队会发布所有相关资源，让更多研究人员和开发者能利用这一成果。说不定以后音频问答领域会有更多创新应用，咱们就等着瞧吧！

Omni-R1

腾讯混元游戏视觉生成平台上线，游戏美术设计效率飙升

家人们，腾讯又放大招啦！5月20日，腾讯正式发布了混元游戏视觉生成平台，这可是专为游戏工业级内容生产打造的AI内容引擎，游戏美术设计行业要迎来高效创作新时代啦！

以前游戏美术设计师创作角色图可麻烦了，得在多个软件之间来回跳转，从找参考图到起草图、做三视图，再到渲染动态演示，整个流程繁琐得很，文件还得反复导入导出。现在腾讯混元的AI美术管线把这些流程都压缩进一个工作页面里了。用户输入一句提示词，比如“一个厚涂风格的动漫少女”，平台就能生成一组灵感参考图。选中图后，设计师能直接在同一页面绘制草图，一键生成标准三视图和360°旋转演示视频，不用切换软件，省时又省力。

腾讯混元还上线了实时画布功能，能秒级响应用户的“生成”需求。设计师画一笔，平台就出一图；拖动构图，结果也能同步变化。这种所见即所得的体验，让设计师在灵感发散期和概念验证阶段能更高频地试错、更快地定稿，创作连贯性和掌控感都更强了。

为了更好地理解游戏美术领域的专业术语，腾讯混元还上线了专为游戏领域训练的AI2D美术模型。这模型基于百万级游戏与动漫数据集训练，能精准还原“厚涂”“赛璐璐”“赛博朋克”等专业术语，还支持多种主流游戏风格和题材的高一致性生成。

另外，腾讯混元还推出了角色多视图自动生成能力，上传一张角色正面图，系统就能自动生成正、侧、背三视图，还能生成360°旋转演示视频，角色一致性最高可达99%。未来它还会推出更多功能，像图生视频、动态立绘等，游戏美术行业估计要迎来大变革啦！

体验路径：腾讯混元首页--创作者社区--行业专区-游戏

混元游戏

MoneyPrinterTurbo开源项目来袭，一键AI速成高清短视频

家人们，GitHub上有个超厉害的开源项目——MoneyPrinterTurbo，它利用强大的人工智能大模型，能极大地简化短视频制作流程，让短视频制作变得超简单！

这MoneyPrinterTurbo功能可多了。它能自动生成视频文案，借助AI技术，用户能快速获得高质量的视频脚本，不用再手动编写啦。它还支持多种视频尺寸，不管是竖屏9:16还是横屏16:9，都能满足不同平台的需求。而且能批量生成视频，用户一次生成多个视频，从中挑出最满意的就行。

它还能自定义字幕和语音合成，支持多种语音合成服务，用户能实时试听效果，还能自定义字幕的字体、颜色、大小等。多模型接入也是它的一大亮点，支持OpenAI、Moonshot、Azure等多种AI模型，用户可以根据需求选择合适的服务商。另外，它还提供高清且无版权的视频素材，用户能添加指定的背景音乐，提升视频整体效果。

这工具适合各类用户，内容创作者、教育工作者、企业营销人员都能用它轻松制作高质量视频内容。为了方便初学者使用，项目还提供了无需部署的在线生成器，降低了使用门槛。后续开发者还计划增加GPT-SoVITS配音支持、视频转场效果等，进一步提升用户体验。有了MoneyPrinterTurbo，短视频制作再也不是难题啦！

MoneyPrinterTurbo

谷歌Gemini网页版对话搜索全面上线，AI搜索体验大升级

家人们，谷歌又有新动作啦！谷歌宣布正式向全球所有用户推出Gemini网页版对话搜索功能，这标志着其基于Gemini2.5的AI搜索体验进入全面普及阶段，以后搜索东西可就更方便啦！

Gemini网页版对话搜索通过Gemini2.5Pro的多模态能力，改变了传统搜索模式。用户能在gemini.google.com通过自然语言输入复杂查询，比如“比较2025年最佳电动车续航和价格”，Gemini会生成包含多段式答案、图表和参考链接的综合回应，还支持多轮追问和上下文理解。要是用户进一步问“哪款适合长途旅行?”，Gemini会根据前文推荐个性化结果。

和传统Google Search相比，对话搜索整合了Deep Research功能，能自动浏览数百个网页，生成多页报告，平均响应时间仅为10秒。在处理学术研究、旅行规划和产品对比等复杂任务时，答案质量媲美专业分析师，用户效率大大提升。

5月19日，Gemini对话搜索已在网页版向所有用户开放，支持45 +种语言，包括中文、英语、日语等，免费用户每月可进行数次Deep Research，Advanced用户享有更高配额和1百万token的上下文窗口。移动端对话搜索功能也将逐步上线，结合Gemini Live的语音和视频交互功能，用户以后用手机就能更方便地查询周围环境或手机内容，比如“分析这张图片中的植物”或“总结我邮箱中的行程”。

Gemini对话搜索的全球上线对竞争对手是个挑战，不过它处理超复杂查询时可能受限于网页数据的实时性，移动端功能延迟推出也可能影响早期用户体验。但不管怎么说，这AI搜索的普惠化里程碑，还是值得咱们期待一下的！

谷歌Gemini

更多AI行业最新资讯新闻信息（ai界最新新闻）请关注AI 人工智能网站--AITOP100平台--AI资讯