每日AI资讯-2025年08月01日-AITOP100,AI资讯

Poe平台放大招：API开放+全模型覆盖，订阅就能用，还兼容OpenAI接口！

最近AI圈热闹了，Poe聊天平台搞了个大升级——推出API功能，这下开发者们可方便多了。最让人惊喜的是，只要你是订阅用户，不用额外掏钱，平台上所有模型和机器人都能直接调用，图像、视频模型也包含在内，成本一下子降了不少。

不管你是想生成文本、处理图片，还是分析视频，Poe的API都能搞定。它支持调用平台上所有模型，开发者完全可以按需求挑最合适的，搞个性化AI应用，创意内容生成或专业数据分析都不在话下。

更贴心的是，这API还兼容OpenAI的chat completions接口。开发者不用重新学新的调用方式，稍作调整就能把Poe接到现有工作流里，这波操作圈了不少粉。

Poe能有这实力，全靠背后几百个AI模型撑着，从文本到多模态处理啥都有。用户通过API轻松访问这些资源，各种场景都能用上AI。这次API功能上线，看得出Poe要从聊天平台往开发者工具转型了，不管是专业人士还是普通用户，都能借着这波升级探索AI的更多可能，期待它后续的新动作！

体验地址：Poe-全球知名AI模型整合平台官网入口（海外网站需要科学上网）

Poe

Claude神器升级：PDF、图像、代码文件随便传，AI应用和数据无缝合作！

Claude的artifacts功能最近出息了，现在能上传PDF、图像、代码文件这些格式的数据，还能跟AI驱动的应用无缝对接，处理数据的本事大涨。

之前传文件格式总受限，现在好了，各种复杂数据集轻松导入AI应用，实用性直接拉满。比如你传个PDF，Claude能快速提取关键信息，生成分析报告或应用建议；处理图像、优化代码也一样高效。

这次升级还优化了细节，数据导入流程更快，界面也更直观，用户不用费啥劲就能上手。Claude团队说，就是想让大家用AI解决实际问题时更轻松。

这背后多亏了Claude4、Claude3.7Sonnet这些先进模型，复杂的多模态数据都能准确解读。不管是专业人士还是普通人，都能借着这波升级让AI和数据好好配合，解决问题更顺手了，坐等Claude再出更多新功能！

体验地址：ClaudeAI助手官网地址

claude

开源了！MOSS-TTSD凭百万小时训练成AI播客新标杆，还支持双语和音色克隆！

AI语音合成领域有大动作了！清华大学语音与语言实验室联合好几家机构搞出的MOSS-TTSD，最近正式开源，在对话场景里算是个大突破。

这模型是在Qwen3-1.7B-base基础上训练的，用了约100万小时单说话人语音和40万小时对话语音数据，中英双语都能生成高表现力的对话语音，做AI播客、有声小说、影视配音这些长篇内容特别合适。

它的XY-Tokenizer是个大亮点，双阶段多任务学习，用八层RVQ码本把语音信号压到1kbps，还不丢语义和声学信息，生成的语音自然又流畅。最长能生成960秒语音，不用像传统模型那样拼接片段，过渡很自然。

更厉害的是零样本音色克隆，传个对话片段或单人音频，就能克隆双人语音，还能控制笑声这类非语言声音。跟开源模型MoonCast比，中文表现领先不少；虽然语气节奏比豆包语音稍逊，但胜在开源且能免费商用。

现在模型权重、代码和API在GitHub、HuggingFace都能找到，还有在线Demo。这对长篇访谈、播客制作帮助太大了，期待团队后续优化多说话人语音切换和情感表达！

github地址： https://github.com/OpenMOSS/MOSS-TTSD （海外网站需要科学上网）

马斯克的Grok出新功能：能生成6秒AI视频，却引来了一堆争议！

马斯克旗下的xAI公司又有新动作，Grok聊天机器人加了个叫“Imagine”的功能，能让用户生成6秒带声音的视频，甚至包括露骨内容，员工发的示例里有机器人、外星部落女性这些。

这功能十月正式上线，现在部分人能提前体验，但马斯克说还在最后调整，而且是Grok4的一部分，公司还称Grok4是“最聪明的AI”。

可争议也跟着来了。之前Grok的性别化AI“伴侣”就不被待见，这次新功能又让人担心深度伪造——随便改视频里的人，还可能未经同意发布。美国国家性剥削中心的人就吐槽，xAI不光不撤掉不良聊天机器人，还在加剧性剥削。

其实大家对深度伪造早有顾虑，2019年Pew调查显示，四分之三美国人支持限制相关技术；2023年更有84%的人支持立法禁止非自愿的深度伪造色情内容。

有人发现这功能能做逼真人类视频、让静态图动起来，可能被用来生成个性化色情图像，之前就有用户担心Grok生成和自己像的性别化图像。加上Grok之前还因反犹太言论被停过，新出的动漫角色互动后穿内衣展示，真是争议不断。

体验地址：Grok AI官网地址

grok ai

Kimi K2高速版来了：输出速度飙到每秒40Tokens，还有限时5折优惠！

经常用AI模型的朋友注意了，Kimi K2高速版kimi-k2-turbo-preview正式发布，速度简直飞起！参数和原版一样，但输出速度从每秒10Tokens涨到40Tokens，用起来流畅多了，效率大大提升。

为了庆祝发布，官方搞了个限时5折活动，到9月1日结束。折扣期间价格很划算：每百万tokens输入（缓存命中）才2块，缓存未命中8块，输出32块，这价格真心有吸引力，想试试的可得抓紧。

官方说这只是开始，之后还会继续优化，争取让速度再上一个台阶。对于需要高效处理文本的用户来说，这高速版确实是个好选择，趁着优惠体验一下，说不定能让工作效率翻倍，期待它之后的表现！

详情查看：Kimi K2高速版来了kimi-k2-turbo-preview，速度直接从“自行车”飙到“高铁”

体验地址：kimi ai网站官网入口

kimi-k2-turbo-preview,Kimi K2高速版

开发者福音！Augment推出CLI工具Auggie，工作流能彻底革新了！

程序员们看过来，Augment新出了个命令行工具Auggie，在AI驱动的软件开发领域算是个大进步，不仅让Augment在终端更好用，还坐稳了企业级AI编码平台的位置。

这工具专为开发者设计，靠着强大的上下文引擎，能吃透整个代码库，完美融入日常工作流。它不光支持命令行，还能跟Visual Studio Code、JetBrains IDE这些主流开发工具深度合作，输个:Augment signin就能登录，效率超高。

Auggie是Unix风格设计，很容易接到现有脚本和自动化流程里。不管是CI管道里的代码审查、自动化测试，还是生成GitHub Actions的PR描述，都能搞定。比如用/gitub-workflow命令，分分钟生成配置，简化PR流程。

它的上下文引擎更厉害了，能自己理解整个代码库，不只是看用户给的文件，处理生成代码、调试问题这些复杂任务特别在行。跟其他同类工具比，非交互模式下控制更灵活，能看完整历史或只看结果，方便脚本自动化。

还能一键连CircleCI、MongoDB这些工具，在终端就能处理外部数据。对企业来说也很友好，能跟GitHub、Jira这些平台对接，开发者不用离开IDE就能完成从写代码到跟踪问题的全流程，处理上万次提交历史也没问题，比不少竞品都强。

体验地址：Auggie AI官网入口

Auggie

阶跃星辰Step 3模型开源：3210亿参数，性能成本兼顾，还支持多模态！

阶跃星辰团队放出个大招，最新基础大模型Step3正式开源，专为追求性能和成本平衡的企业、开发者打造，号称推理时代最适合应用的模型，在Github、Hugging Face这些平台都能下到。

这模型用了MoE架构，总参数量3210亿，激活参数量380亿，视觉感知和复杂推理能力很强，跨领域知识理解、数学与视觉交叉分析、日常视觉分析都能搞定。多亏了MFA和AFD优化，在各种芯片上推理效率都高了不少，配套的StepMesh通信库也开源了，跨硬件部署很方便。

它的MFA注意力机制很牛，能减少KV缓存开销和算力消耗，在8×48GB显卡上就能搞大吞吐量推理，实际部署完全可行。多模态方面，用5B视觉编码器，通过卷积把视觉token减到原来的1/16，推理更顺。训练分两阶段，语料处理也讲究，图文协同效果好。

系统架构上重构了解码流程，AFD方案把计算任务分开，用流水线调度提升效率，StepMesh通信库保证数据传输快又稳。在50ms解码要求下，Hopper GPU上吞吐达4039token/gpu/s，比DeepSeek V3高不少，长文场景优势更明显。

测试成绩也很亮眼，在MMMU、MathVision等评测集上表现领先。比如安排商务宴座，能解析礼仪、角色和空间逻辑，给出清晰方案；算卡路里也能看懂小票，准确估算。现在API已上线，官网和App能体验，限时折扣输入1.5元/百万token，输出4元，赶紧试试

体验地址：跃问视频-阶跃星辰AI视频工具

魔搭ModelScope地址：

https://www.modelscope.cn/models/stepfun-ai/step3

https://www.modelscope.cn/models/stepfun-ai/step3-fp8

阶跃星辰Step 3模型开源

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：