每日AI资讯-06月04日-AITOP100,AI资讯

Komiko视频转动漫，创作门槛大降！

嘿，朋友们！Komiko平台最近可是搞了个大动作，全新视频到视频功能炸裂上线啦！这一下子，漫画、动画创作变得前所未有的简单。

以前，想创作动漫大片，那得是专业人士，有技术、有经验才行。现在呢，有了Komiko，只要你会上传视频，再选个艺术风格，比如动漫、赛博朋克啥的，或者输入点自然语言提示，像“动漫风格，角色在风中挥手”，AI分分钟就能给你生成专业品质的漫画和动画。这背后啊，是Komiko和行业领先的AI模型深度整合，输出的视频又流畅又高保真。

Komiko可不只是有这个视频转视频的功能，它还是个全能AI工具套件。从AI线稿自动上色，到背景移除、图像增强，再到动画补帧与关键帧生成，啥都有。漫画家能利用它加速工作流程，粉丝能把游戏、小说故事快速变成漫画动画，创作者还能把短视频变成动漫风格，发到社交媒体上吸粉。

而且啊，Komiko还有Discord社区，创作者们能在这儿分享经验、获取反馈，还能参加AniGen竞赛啥的。未来，Komiko还要整合实时交互和更强大的AI模型，从粉丝到专业工作室，都能用它来创作。这Komiko，简直就是创意产业的“神器”啊！

PlayDiffusion，语音编辑新宠儿！

家人们，Play AI最近开源了个好东西——PlayDiffusion语音编辑模型。这玩意儿可太牛了，专门为语音局部修改设计的。

以前，要是想改语音里的某一部分，那得把整段音频重生成，麻烦得很。现在有了PlayDiffusion，直接对语音里的某部分替换、删除或调整就行，其他没改的地方一点儿不变。就像把音频里的“Neo”改成“Morpheus”，它就能精准识别位置，智能调整节奏、语调、音色，融合得那叫一个自然，几乎听不出拼接痕迹。

这PlayDiffusion啊，用的是扩散模型架构，在语音片段被大范围遮盖的极端场景里，也能当高性能TTS模型用。和传统TTS系统比，推理速度能提升50倍，全局一致性还更强。

对于播客制作、AI配音、内容纠错这些场景，PlayDiffusion意义可大了。它不只是个音频编辑工具，更是语音生成领域转型的重要信号。以后啊，它没准儿能成为播客、视频内容创作的必备利器，让语音编辑变得“所听即所得”。

Claude Code或向Pro用户开放，开发者有福啦！

各位开发者注意啦！Anthropic开发的AI编码助手Claude Code，可能要向Pro用户开放啦！

Claude Code可是个好东西，2025年2月一推出就受热捧。它基于Claude3.7Sonnet模型，能在终端直接操作，深度理解代码库，还能重构、调试代码，管理Git工作流。和Cursor、GitHub Co pilot这些编码助手比，它通过Model Context Protocol和GitHub、GitLab等平台无缝集成，能处理复杂开发任务，提升工作效率。

不过以前啊，Claude Code的访问受限，只有Max订阅计划用户或通过Anthropic API单独付费的用户能用。现在呢，网络动态显示，Anthropic可能要调整策略，给Pro用户定额使用权限。Pro用户月费才20美元，以后就能直接用Claude Code的终端功能，不用额外API费用或Max订阅啦。

而且啊，Claude Code的核心功能不会缩水，开发者还能用它探索代码库、写测试用例、执行代码审查、自动化Git操作。在SWE-bench和Terminal-bench等基准测试中，它的表现也很优异。要是真向Pro用户开放，那中小型开发团队和独立开发者可有福啦，AI辅助编码的普及速度也能加快。

claude code

谷歌暂停“Ask Photos”，AI功能推广遇难题

家人们，谷歌最近又搞出幺蛾子了，暂停了Google Photos里的AI驱动“Ask Photos”功能。

这“Ask Photos”功能，去年秋季就开始逐步扩展，本想着能帮用户通过自然语言查询照片库，可结果呢，没达到预期效果。谷歌Photos的产品经理Jamie Aspinall说，这功能有延迟、质量、用户体验三方面问题。

这功能用的是谷歌最新的Gemini AI模型，还是定制版呢。可就是因为这些问题，谷歌决定小范围暂停推广，两周内推出个更好的版本，恢复原始搜索的速度和准确性。同时，还改进了Photos里的关键词搜索功能，用户能用引号精确文本匹配，或者不用引号视觉匹配搜索。

其实啊，谷歌这不是第一次暂停推出AI驱动的功能了。去年5月“AI 概述”功能，因为答案荒谬不准确就暂停了；今年2月Gemini的图像生成工具，因为用户反馈历史不准确也暂停了。看来，谷歌在AI技术的推广和应用上，还面临着不少挑战啊。

gemini

Fish Audio语言生成模型：OpenAudio S1，AI语音新标杆！

嘿，朋友们！Fish Audio最近推出了个厉害的语音生成模型——OpenAudio S1，号称能媲美专业配音演员。

这OpenAudio S1啊，是Fish Audio在Fish Speech系列基础上的全新升级。它声音高度自然，几乎和人类配音没区别，适用于视频配音、播客、游戏角色语音这些专业场景。而且啊，它支持超过50种情绪和语气标记，用户能通过自然语言指令灵活调整语音表达。还能控制语速、音量、停顿、笑声这些细节，打造个性化语音输出。

这OpenAudio S1在TTS-Arena排行榜中可是荣登第一，在Seed TTS评估中表现也很出色，英语单词错误率、字符错误率都很低。它用的是创新的Dual-AR架构和RLHF驱动的情感表达技术，优化了语音生成的稳定性和效率，还增强了情感表达能力。

在内容创作、虚拟助手、游戏与娱乐、教育与无障碍这些领域，OpenAudio S1都有巨大潜力。它还支持零样本和少样本语音克隆，10-30秒的音频样本就能生成高保真克隆语音。而且啊，它有S1（4B参数，专有模型）和S1-mini(0.5B参数，开源模型)两个版本，满足不同用户需求。未来，它还要推出实时语音交互功能，支持更多语言和更复杂的情感表达，这AI语音领域啊，又要变天啦！

fish audio

OpenAI Codex升级，编程更智能啦！

各位开发者注意啦！OpenAI最近对编程工具Codex进行了全面升级，新增了语音输入和联网能力，这下编程可更智能啦！

以前，Codex只能Enterprise、Team和Pro用户用，现在每月20美元的ChatGPT Plus用户也能用啦。而且啊，新版本的Codex能在执行任务时访问互联网，自动安装基础依赖项，运行代码检查，做测试，还能执行需要访问测试服务器的脚本。这开发者就能更专注于逻辑和功能的实现，不用再为环境配置发愁啦。

不过，OpenAI对联网功能推广很谨慎，默认是关闭的，用户能细致控制Codex可以访问的域名和HTTP方法，还监控潜在的提示注入攻击，保障用户安全。

除了联网功能，Codex还降低了使用门槛，ChatGPT Plus用户能创建编程环境，把任务委托给AI。还引入了语音输入功能，习惯口头表达思路的开发者用起来更方便。而且啊，Codex现在支持更新现有的拉取请求，减少代码库混乱，提升代码审查效率。

OpenAI还对Codex进行了多项底层改进，扩大差异限制，加速设置脚本，优化iOS平台表现，改善与GitHub的连接流程。对于用单点登录或社交登录的团队，双重认证也不再是强制要求。这Codex升级后，开发者编程可轻松多啦！

openai

OpenAI免费开放记忆功能，ChatGPT更贴心！

家人们，OpenAI最近更新了支持文档，宣布把ChatGPT的记忆功能免费向所有用户开放啦！

以前啊，这记忆功能只限于ChatGPT Plus和Pro的付费用户，现在登录的免费用户也能用啦。这记忆功能可好了，能记录用户的特定指令，以后新对话时，ChatGPT会自动引用之前相关的对话内容，回复更连贯、更有针对性。用户用起来，体验更个性化，效果也更好。

不过呢，免费用户的记忆功能属于轻量版，主要支持短期对话的连续性。付费用户订阅ChatGPT Plus（每月20美元）或ChatGPT Pro(每月200美元)后，记忆能力更强大，能引用更久远的对话记录，使用起来更便捷、互动性也更强。

为了保障用户隐私，OpenAI提供了多种管理记忆的选项。用户能随时在设置里关闭“记忆”或“引用聊天历史”功能，还能删除特定记忆内容。而且啊，ChatGPT还有“临时聊天”模式，类似浏览器的隐身模式，这些对话不会被保存，用户能更好地控制个人信息。

OpenAI这次更新，让ChatGPT功能更完善，免费用户和付费用户都能受益，使用价值也进一步提升啦！

openai

更多AI行业最新资讯新闻信息（ai界最新新闻）请关注AI 人工智能网站--AITOP100平台--AI资讯