每日AI资讯-2025年09月18日-AITOP100,AI资讯

ElevenLabs发布音视频制作工具Studio3.0：音视频创作一站式神器

ElevenLabs最近发布了音视频制作工具Studio3.0，给内容创作者带来了大惊喜。这个平台功能超全，集成了AI语音生成、自动配乐、音效生成、字幕添加、降噪处理和视频剪辑等功能，一站式搞定短视频、播客、有声书和在线课程制作。

其中，AI语音合成技术超厉害。以前修改音频，有错误就得重录，现在直接编辑文本就能改，大大提高了制作效率，让音频编辑更灵活。自动配乐也很实用，上传视频，系统就能智能匹配合适配乐，提升视频氛围。音效生成能根据文本提示生成特定音效，满足不同创作需求。

视频编辑方面，一键字幕添加功能超方便，还能自定义字幕样式，支持多语言，对想扩大观众群体的创作者很有帮助。语音修复功能也很贴心，能通过修改脚本纠正音频错误，保证作品质量。

ElevenLabs一直致力于为创作者提供高效工具，Studio3.0就是最好的证明。不管是专业人士还是新手，用它都能快速实现创意，做出高质量音视频作品。如果你还在为音视频制作发愁，不妨试试Studio3.0，让创作变得更简单。

详情查看：ElevenLabs推出Studio3.0

可灵AI推出全新数字人功能：一张图片秒变高清数字人视频，最长时长1分钟

国产AI视频生成平台可灵AI有了新突破，推出了全新数字人功能，能从静态图片生成动态视频。用户只需提供一张角色图片，再配上文字或音频输入，就能快速生成1080p分辨率、48FPS帧率、最长1分钟的数字人视频。

该功能基于多模态理解与视频生成模型深度融合技术，口型同步和情绪表达都很出色。能精准控制数字人的面部表情和肢体动作，让口型和音频完美匹配，还能根据文本或语音的情感调节角色情绪和动作幅度。

它支持多种角色创建，涵盖不同年龄、性别和风格的人物形象，还有多语种处理能力，给全球用户带来本地化体验。

这一功能对多个行业都有重要意义。自媒体创作者和短视频制作者能快速制作个性化数字主播；教育培训机构可创建虚拟讲师讲解课程；企业能制作统一形象的数字代言人推广产品。

和传统真人拍摄或3D建模制作相比，可灵AI的数字人功能降低了技术门槛和成本投入，让普通用户也能轻松做出专业水准的数字人视频。目前该功能正在公测，将陆续开放使用权限，大家不妨期待一下。

项目地址： https://klingavatar.github.io/ （海外网站需要科学上网）

可灵AI推出全新数字人功能

硅基流动上线Ling-flash-2.0：推理快、性能强

近日，硅基流动大模型服务平台上线了蚂蚁集团百灵团队的Ling-flash-2.0，这是平台第130个模型。

Ling-flash-2.0是基于MoE架构的大型语言模型，有100亿参数，激活时仅用6.1亿参数。经过大量高质量语料预训练、监督微调和多阶段强化学习，它在激活6亿以上参数时，性能能媲美40亿参数Dense模型。

这个模型在复杂推理、代码生成和前端研发等领域表现出色，支持最大128K上下文长度，文本处理能力强大。而且定价亲民，输入每百万个Token1元，输出每百万个Token4元，新用户还有赠金。

和同类型模型相比，Ling-flash-2.0优势明显。复杂推理能力更强，创作类任务也很有竞争力。其架构经过精心设计，采用1/32激活比例的MoE架构，还做了很多优化，推理速度极快。用H20部署时，输出速度每秒能超200个Token，比36B的Dense模型快3倍以上。

硅基流动平台一直为开发者提供快速、经济、可靠的大模型API服务，除了Ling-flash-2.0，还有很多其他类型的模型。开发者可以在平台上对比和组合模型，调用高效API，助力生成式AI应用发展。

体验地址：硅基流动网页版官网平台

硅基流动

ChatGPT网页端推出Thinking调整功能：可调GPT-5思考时长

OpenAI又有新动作，为Plus、Pro和Business用户推出了“Thinking调整功能”，目前已在ChatGPT网页端上线。

这个新功能允许用户自主选择GPT-5模型的思考时长，平衡回复速度和智能程度。标准模式是默认设置，保证回复速度的同时提供智能反馈。扩展模式能让GPT进行更深层次思考，但回复时间会增加。

Pro用户还有更多选择，轻量模式能最快获得回应，重度模式则能进行最深入交流，不过回复速度会变慢。而且这个设置会一直保留，直到用户手动更改，开启新对话也更便捷。

除了思考时长调整，OpenAI还在开发儿童版ChatGPT，专为未满18岁用户设计。它会屏蔽露骨内容，限制讨论自杀或自残主题。如果用户有此类意图，OpenAI会尝试联系家长，必要时上报相关部门，为年轻用户提供更安全的使用体验。

OpenAI不断优化升级产品，满足不同用户需求，给大家带来更灵活的AI互动体验。相信未来ChatGPT还会有更多实用功能推出，让我们拭目以待。

详情查看：ChatGPT网页端新增GPT-5 Thinking“思考模式”调节选项，用户可自主平衡响应速度与回答深度

腾讯混元SRPO技术：有效解决AI生成人物皮肤“过油”问题

在数字艺术盛行的今天，AI生成图像的质量很关键。腾讯混元团队联合香港中文大学（深圳）及清华大学，发布了最新研究成果SRPO（语义相对偏好优化），能提升AI生成图像的真实感，解决开源文生图模型Flux人物皮肤“过油”问题。

SRPO引入了“语义偏好”概念，通过添加特定控制提示词调整奖励模型优化目标，提高生成图像真实度。为避免奖励破解问题，又创新性地引入“语义相对偏好优化”策略，用正向和负向词汇引导，中和奖励模型偏差。

传统生成优化方法易在高频信息上过拟合，腾讯混元团队用Direct-Align策略，向输入图像注入可控噪声，以它为参考锚点重建图像，降低重建误差，精准传导奖励信号，还能优化生成轨迹前半段，解决过拟合问题。

SRPO技术训练效率极高，10分钟就能超越现有DanceGRPO方法，真实度和美学评分提升超三倍，训练时间降低75倍。随着这项技术普及，AI生成图像的真实感将大大提高，为数字艺术创作带来新可能。如果你对AI生成图像感兴趣，不妨关注一下腾讯混元的这项新技术。

详情查看：针对Flux模型皮肤质感失真，腾讯混元SRPO技术显著提升图像真实感

腾讯混元SRPO技术

Meta推出了全球首款带屏幕AI眼镜Ray-Ban Display眼镜：售价799美元

Meta在Connect2025年度开发者大会上推出了新款智能眼镜Meta Ray-Ban Display，将于9月30日上市，售价799美元。

这款眼镜由马克·扎克伯格亲自发布，核心亮点是右侧镜片内置显示屏，能直观呈现应用程序、提醒和导航信息。它集成了AI助手、摄像头、扬声器和麦克风，支持连接云端，用户可直接在眼镜上使用Meta旗下应用，还能查看路线和实时翻译。

更特别的是，它和Meta Neural Band神经腕带一同发售。腕带外观像Fitbit，没屏幕，通过肌电图技术捕捉用户手部细微动作，识别大脑与手部信号，精准操控眼镜。腕带续航18小时，还防水。

Meta此举是想减少用户对谷歌和苹果等竞争对手移动设备的依赖，通过自有硬件与用户建立联系。虽然它功能不如Orion智能眼镜原型机复杂，但Meta想先推出成熟商业产品抢占市场。不过未来谷歌和苹果可能推出智能眼镜，Meta将面临巨大竞争压力。如果你追求智能生活新体验，不妨关注一下这款眼镜。

详情查看：Meta发布首款带显示屏的AI眼镜Ray-Ban Display

腾讯混元Hunyuan-MT-Chimera-7B：AI翻译新利器

在全球化时代，跨语言交流需求大增，AI翻译技术很重要。腾讯混元翻译集成模型Hunyuan-MT-Chimera-7B（奇美拉）开放体验，给大家带来新惊喜。

它采用创新集成翻译模式，就像经验丰富的“裁判”，多个翻译模型是“翻译助理”。面对原文，“翻译助理”给出结果，“裁判”综合生成更优翻译，原生支持Hunyuan-MT-7B，还能接入deepseek等模型，满足专业翻译需求。

9月1日开源后，它在HuggingFace上登上趋势榜榜首，很受开发者欢迎。腾讯混元翻译提供直接使用体验，在Github和HuggingFace开放模型下载，还有详细技术报告，方便部署使用。

腾讯内部业务也积极接入该模型。QQ浏览器上线视频AI字幕功能，背后有它支持，能实现5种语言到中英文翻译，让用户看外语视频无障碍。网页翻译也受益，支持33个语种和5种民汉语言/方言互译，优化外文内容消费体验。

腾讯推出这个模型，就是想消除语言文化障碍，让跨语言、跨文化交流更顺畅。现在模型已开放体验，大家可以通过链接体验，也欢迎在开源社区点赞，推动AI翻译技术发展。

详情查看：腾讯混元发布集成翻译模型Hunyuan-MT-Chimera-7B，已开放体验

腾讯混元Hunyuan-MT-Chimera-7B

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：

aitop100官方交流30群