• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

每日AI资讯-2025年08月12日

每日AI资讯-2025年08月12日
AI TOP100
15小时前

Perplexity AI 开启新征程:从问答迈向视频创作订阅服务

Perplexity AI又有大动作啦!这家公司宣布在全平台上线视频生成功能,为用户带来了文本到视频的创作新体验。

以往,用户只能通过文字与它交互获取答案,现在可不一样了。在Perplexity的聊天界面,输入文字提示,就能直接生成短视频内容,这标志着AI搜索从文字答案向多媒体内容创作实现了重大转型。

该功能按订阅等级开放,Pro用户每月能生成5个视频,Max用户则每月有15个视频额度。虽然官方没透露底层技术细节,但从视频质量和生成效果推测,很可能基于谷歌最新Veo3模型构建,这为视频的清晰度、连贯性和细节表现提供了有力保障。

Perplexity AI的这一举措,反映了AI搜索行业从单一文字输出向多模态内容生成转型的趋势。传统搜索引擎主要提供网页链接,而Perplexity等新兴平台通过生成文字、图像、代码乃至视频的“答案即服务”模式,重新定义了用户与信息的交互方式。业内人士指出,这种多模态整合能力将成为AI平台竞争的关键。相信未来,Perplexity AI会给我们带来更多惊喜,让我们拭目以待!

详情查看:Perplexity AI杀疯了!从问答到视频生成,AI搜索进入“多模态”新战场

昆仑万维Matrix-3D大模型:单张图像开启高质量全景视频生成新时代

昆仑万维在北京举行的SkyWork AI技术发布周上,推出了全新的3D世界生成大模型——Matrix-3D,这可是3D生成技术的一大进步。

传统3D场景生成技术在视角范围、几何一致性和视觉质量上存在局限,通常依赖多视角输入,难以从单一图像生成完整且可探索的3D世界。而Matrix-3D整合了全景视频生成和三维重建,能从单张图像生成高质量且具有一致轨迹的全景视频,还能重建出可漫游的3D空间。

它包含几个核心模块,确保生成能力优势。轨迹引导的全景视频生成模块,通过场景Mesh渲染图生成符合相机轨迹的全景视频,提高空间结构一致性;双路径全景3D重建模块,支持两种优化路径获取高质量3D模型和快速预测3D几何属性;Matrix-Pano数据集包含大量静态全景视频序列,保障了模型训练。

Matrix-3D支持用户通过文本或图像输入生成可自由探索的3D场景,具有视角一致性、几何与色彩一致性等特点。它预计在游戏与影视制作、具身智能等领域发挥重要作用。昆仑万维的Matrix-3D项目主页及相关技术报告已上线,将进一步推动3D生成技术发展。

github地址:https://github.com/SkyworkAI/Matrix-3D

昆仑万维Matrix-3D大模型

昆仑万维发布Matrix-Game2.0:全球首个实时长序列视频生成开源世界模型

2025年8月11日,昆仑万维在SkyWork AI技术发布周上,正式推出了全新自研的交互式世界模型Matrix-Game2.0,这可是多模态AI领域的重要突破。

Matrix-Game2.0是业内首个在通用场景下实现实时长序列生成的开源世界模型,支持每秒25帧生成连续视频内容,时长可达分钟级,极大提升了生成内容的连贯性和实用性。它增强了对物理规律和场景语义的理解,用户通过简单指令就能自由探索和操控虚拟环境,获得更强的沉浸感与可控性。

在技术架构上,它引入创新的视觉驱动交互建模方案,摒弃传统依赖语言提示的生成模式。底层基于3D因果变分自编码器与多模态扩散Transformer,能高效压缩时空维度,逐帧生成符合物理逻辑的动态视觉序列,具备强大的跨域适应性。

该模型在游戏内容创作、虚拟现实和智能交互系统等领域有广泛应用潜力。在GTA和Minecraft等游戏场景中,展现了卓越的交互能力。昆仑万维表示,Matrix-Game2.0的持续迭代与开源是中国在空间智能研究领域的新里程碑,将对具身智能体训练、虚拟游戏世界搭建以及影视与元宇宙内容生产产生深远影响。

详情查看:昆仑万维Matrix-Game2.0开源世界模型

昆仑万维Matrix-Game2.0

字节跳动DiT大模型方案:实现视频字幕无痕擦除助力短剧出海传播

字节跳动技术团队又有新成果啦!他们推出了基于DiT大模型与字体级分割的视频字幕无痕擦除方案,为短剧等视频内容的全球化传播提供了有力支持。

在全球化内容制作中,原始视频的中文字幕对海外观众是无效信息,还影响观看体验。传统字幕擦除方法存在画面杂乱、模糊或帧间闪烁等问题,无法彻底解决。而火山引擎视频点播推出的这个方案,通过两大核心技术突破和强大的工程能力,实现了全片真实自然的“无痕擦除”,还支持多字幕框、指定时间段的精准擦除。

该方案的核心在于DiT视频字幕擦除模型和字体级分割模型。DiT模型通过强鲁棒性预训练基底等策略,实现像素级无痕修复;字体级分割模型精准定位目标区域,避免传统问题。

火山引擎多媒体实验室联合工程团队构建了兼顾精度与效率的技术体系,经过超万集视频数据集验证,擦除任务成功率达到100%。创新的视频分镜技术结合服务器集群分布式计算,提升了视频处理效率。此外,该方案还支持多语言内容流转,突破了中英文限制。火山引擎视频点播形成了“擦除 - 翻译 - 口型同步”的一站式闭环,大幅提升了全流程处理效率,让优质内容全球化传播更简单高效。

详情查看:字节跳动放大招!视频字幕“一键消失术”来了,短剧出海有救了

AI字幕擦除

智谱发布GLM-4.5V开源模型:41项榜单第一,视觉推理能力全面领先

智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM - 4.5V,这是其在通向通用人工智能(AGI)道路上的重要成果。

GLM - 4.5V在魔搭社区与Hugging Face上同步开源,总参数达106B,激活参数为12B,在41个公开视觉多模态榜单中综合效果达到同级别开源模型的最高性能,涵盖图像、视频、文档理解以及GUI Agent等常见任务。它不仅在榜单表现出色,更注重真实场景下的表现与可用性。

该模型通过高效混合训练,具备覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括图像推理、视频理解等。新增的“思考模式”开关,让用户能灵活选择快速响应或深度推理。

为帮助开发者体验模型能力,智谱清言同步开源了一款桌面助手应用,可实时截屏、录屏获取屏幕信息,处理多种视觉推理任务。GLM - 4.5V的API已上线智谱开放平台BigModel.cn,为新老用户准备了2000万Tokens的免费资源包,API调用价格低,响应速度快。

此外,它在视觉定位、前端复刻等方面表现强大。其技术细节包括视觉编码器等三部分组成,支持64K多模态长上下文,通过三维卷积提升视频处理效率,引入三维旋转位置编码强化对多模态信息的三维空间关系的感知与推理能力。

详情查看:智谱发布GLM-4.5V开源模型

智谱GLM-4.5V开源模型

Suno Studio来了!多轨创作+MIDI导出,AI音乐创作进入新阶段

2025年8月12日凌晨,AI音乐生成领域的“顶流”Suno AI在社交平台X上宣布,Suno Studio即将上线,这一消息瞬间在音乐圈引发热议。

官方预告中提到的多轨道创作、MIDI导出等功能,让音乐人兴奋不已。网友们纷纷在评论区表达期待,有的网友表示已经在候补名单上蹲了半个月,每天刷新几十次;有的网友称Suno给了自己声音,让自己能向世界倾诉灵魂。

Suno Studio之所以让音乐人如此期待,是因为其功能直击痛点。多轨道创作告别了“单声道AI音乐”,支持独立编辑鼓、贝斯、吉他等音轨,专业制作人也能轻松玩转;MIDI导出功能让生成的音乐可直接导出为标准MIDI文件,无缝衔接Cubase、Logic Pro等DAW软件,实现了AI与人工混音的可能。而且预告中的“还有更多”引发无限遐想,或支持实时协作、自定义音色库等进阶功能。

此前,多数AI音乐工具仅能生成单轨音频,或通过提取少量词干模拟“多轨”,而Suno Studio若实现真·分轨创作,将填补专业级AI音乐生产的空白。独立音乐人、短视频创作者甚至游戏配乐师都将受益,能快速生成多轨草稿再人工润色,效率大幅提升。目前Suno Studio尚未开放,但候补名单已开启,首批名额大概率“秒空”,想体验的音乐人可得抓紧时间。

详情查看:Suno Studio重磅官宣多轨创作+MIDI导出,音乐人狂喜的AI神器要来了!

MiniMax Agent全球挑战赛来袭:15万美金奖金等你来拿!

喜欢挑战和创新的朋友们注意啦!MiniMax150,000美元AI Agent挑战赛火热开启,就等你来大展身手!

MiniMax Agent是一款强大的AI超级助手,能自主处理复杂的长期任务,无需任何代码。它能进行多步骤规划、多模式生成,实现丰富的自动化功能,涵盖Web开发、视频/音频创作、文档分析等多个领域。端到端执行功能强大,从构思到全栈应用/网页/项目,不到一小时即可完成,还能处理文本、图像、音频和视频,支持语音交互等多种操作,使用多代理协作协议协调专门的AI子代理共同处理任务。

本次挑战赛奖金池丰厚,设有原始类别和混音类别。原始类别中,金奖可获得3万美元 + 12个月专业会员资格,还有银奖、铜奖等多个奖项;特别奖有地区冠军、最狂野、最实用等多个奖项。混音类别也有金、银、铜奖等多个奖项,还有普通奖。

参赛也很简单,先注册参加黑客马拉松,获取5,000个积分用于构建项目,项目准备就绪后分享到图库和社交媒体,并上传演示视频。评审将从现实世界的影响、技术实施、创新与创造力、功能四个关键维度对项目进行评估。大赛8月11日开始注册,8月25日截止提交项目,9月1日公布获奖者名单。快来加入挑战,说不定15万美金奖金就属于你!

大赛地址:MiniMax Agent全球挑战赛官网入口

MiniMax Agent全球挑战赛


想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码:

AITOP100平台官方交流24群

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • Perplexity:对话式AI搜索引擎
  • Suno AI:音乐生成工具
  • MiniMax Agent:MiniMax通用型AI智能体
相关资讯
  • 每日AI资讯-2025年08月12日

  • 每日AI资讯-2025年08月11日

  • 每日AI资讯-2025年08月08日

  • 每日AI资讯-2025年08月07日

  • 每日AI资讯-2025年08月06日

热点资讯

重磅!微软Bing Search API确认8月11日停服,全球数十万开发者面临迁移危机

6天前
重磅!微软Bing Search API确认8月11日停服,全球数十万开发者面临迁移危机

AITOP100 AI应用重磅更新!即梦AI 3.0、Vidu Q1、海螺AI全新升级

6天前
AITOP100 AI应用重磅更新!即梦AI 3.0、Vidu Q1、海螺AI全新升级

阿里通义重磅发布Wan2.2-I2V-Flash:图生视频效率飙升12倍,成本低至0.1元/秒!

1天前
阿里通义重磅发布Wan2.2-I2V-Flash:图生视频效率飙升12倍,成本低至0.1元/秒!

Higgsfield AI新功能上线:高级别多参考功能,让创作更省心

8天前
Higgsfield AI新功能上线:高级别多参考功能,让创作更省心

马斯克xAI放大招:Grok 4永久免费!AI界"白嫖"时代来了?

2天前
马斯克xAI放大招:Grok 4永久免费!AI界"白嫖"时代来了?
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有