李飞飞World Labs推Marble 3D世界模型,文本图片秒变虚拟宇宙
在AI领域,李飞飞可是响当当的人物,她创立的 World Labs在2025年11月13日,正式推出了Marble 3D世界模型的公测版,这一下可在行业里引起了不小的轰动。
这个Marble 3D世界模型到底有多牛?简单来说,它的多模态输入功能太强大了。你要是输入 “未来城市街景” 这样的文本提示,或者上传一张图片,甚至是多图、视频,它都能给你生成一个完整的 3D 世界。生成时间大概也就 10 分钟左右,而且生成的世界几何结构清晰,一致性强,你还能用鼠标导航浏览,就像自己身处其中一样。它还有内置的 Chisel 实验性 3D 编辑器,你可以先简单勾勒出空间布局,比如画个房间的轮廓,再用文本提示赋予它风格,像欧式古典风或者现代简约风都没问题。完成后,还能把生成的 3D 世界导出为高斯溅射、三角网格或视频格式,方便在游戏开发、视觉特效等项目里使用。
在 “世界模型” 这个赛道上,Marble 的竞争力很强。像谷歌 DeepMind 的 Genie 还在研究预览阶段,其他一些初创公司也还在演示阶段,而 Marble 已经进入公测了。它专注于 3D 内容生成,填补了当前 AI 多局限于 2D 文本 / 图像的空白,给机器人训练模拟和影视制作等带来了新的可能。而且,它或许还能改变视频数据生成的方式,从 3D 世界导出视频序列,结合 AI 增强,能制造出更有空间深度的训练数据集。
未来,随着模型不断迭代,Marble肯定会越来越厉害。现在它有免费版和付费版,免费版能让你体验基础的生成功能,要是想有更多配额和商业使用权,就可以选择付费计划,标准版 20 美元 / 月起。感兴趣的开发者们,不妨去试试,说不定能打开新世界的大门!
工具地址:Marble 3D世界模型官网入口 (海外网站需要科学上网)

百度猎户座AI引擎正式发布,搜索技术与AI能力全面开放
百度今日放出大招,正式推出了 “百度猎户座” AI引擎。这可不是一个简单的引擎,它可是百度 25 年来搜索技术与前沿 AI 能力的大集合,对企业和开发者来说,这简直就是个宝藏。
百度猎户座整合了搜索 AI API、MCP 多模态计算平台以及各类行业优势能力。企业和开发者只要简单接入,就能调用它的原生能力。比如说,以前开发一个智能客服,可能要花费大量的时间和精力去搭建各种技术框架,现在有了百度猎户座,直接调用相关能力,就能快速搭建出智能客服系统。而且,它还能用于数据分析,帮企业从海量的数据中快速提取有价值的信息;在内容生成方面也不在话下,像写文案、做设计,它都能提供助力。
在搜索引擎优化方面,百度猎户座能让搜索结果更精准、更智能,提升用户的搜索体验。在各个垂直领域,比如电商、教育、医疗等,它也能发挥重要作用。电商企业可以利用它优化商品推荐系统,教育机构可以用它开发智能学习辅助工具,医疗机构可以借助它进行医疗影像分析等。有了百度猎户座,企业的业务效率有望得到大幅提升,能更好地满足市场需求。
百度猎户座AI引擎的发布,是百度在AI技术应用上的一个重要里程碑。它降低了企业和开发者使用 AI 技术的门槛,让更多人能够享受到AI带来的便利。相信在未来,百度猎户座会在市场上大放异彩,为各行各业的发展注入新的活力。

文心大模型5.0发布,开启原生全模态新时代
在百度世界大会上,李彦宏正式发布了文心大模型 5.0,这一发布可是吸引了无数人的目光,它被定义为 “统一的原生全模态模型”,标志着国产大模型迈入了一个全新的阶段。
文心大模型5.0最大的亮点就是它的原生全模态能力。和行业里主流的 “多模态拼接” 方案不同,它不是先让视觉模型识别图像,再让语言模型生成描述,而是从底层架构就实现了文本、图像、语音的统一表征与联合训练。比如说,你问它 “描述这张照片中人物的情绪变化”,它能直接理解并回答,而不需要切换不同的模式。再比如,让它 “根据这段旋律生成匹配的诗歌”,它也能轻松完成,真正做到了 “边看边听边理解”,处理跨模态复杂任务的能力超强。
从即日起,文心大模型 5.0 已经上线百度智能云千帆大模型平台。企业和开发者这下可方便了,直接调用它的全模态能力,就能快速构建各种应用。想做一个智能客服,用文心大模型 5.0 就能让客服更智能,理解用户的意图更准确;要是做 AI 创作,无论是写小说、诗歌还是绘画,它都能提供灵感和素材;在工业质检领域,它能通过分析图像和数据,快速检测出产品的质量问题;多模态搜索方面,它能让搜索结果更全面、更精准。
百度选择以 “原生全模态” 为突破口,避开了纯文本赛道的同质化竞争。在很多行业,像智能工厂需要理解图文工单,医疗影像诊断需要多模态辅助,教育场景的 “看图说话” 互动教学等,文心大模型5.0 都能发挥重要作用。它的出现,将大大提升人机交互的自然度,让AI真正服务于现实世界,重新定义下一代大模型的技术标准。
模型地址:百度文心一言5.0

宇树科技推出G1-D人形机器人工作站,一站式支持AI模型开发
宇树科技最近在人形机器人领域又有新动作,推出了以全新轮式人形机器人 G1-D 为核心载体的人形机器人数据采集训练全栈解决方案,这可是个能一站式支持 AI 模型开发的工作站。
这个工作站的功能十分强大。它集成了数据采集、处理、标注、审核以及数据资产管理功能,形成了一个高效的数据流管理系统。在模型训练方面,它能提供模型分布式训练、自定义模型训练开发与部署服务,还全面支持主流开源模型框架,这就大大提升了人形机器人 AI 模型的研发效率。
作为工作站的基础硬件,G1-D 机器人的设计也很有讲究。它的身高范围在 1260mm 至 1680mm 之间,头部配备高清双目相机,手部也有高清相机,能从多维度捕获高质量的视觉数据。它采用轮式与升降相结合的移动设计,垂直作业空间可达 0 - 2 米,腰关节运动空间大,可实现 Z 轴 ±155°、Y 轴 - 2.5°~ + 135° 的运动。在核心性能上,G1-D 通用版和旗舰版分别有 17 和 19 个整机自由度(不含末端),单臂自由度为 7 个,单臂最大负载约为 3kg,旗舰版还可选配移动底盘,移动速度最高可达 1.5m/s。
宇树科技推出的 G1-D 数采训练全栈解决方案,意义重大。它标志着人形机器人从单纯的硬件平台向 “硬件 + 数据 + AI” 生态平台迈进。以前,人形机器人可能只是一个机械装置,现在有了这个工作站,它就能成为一个智能的载体,为行业提供高效、集成化的 AI 训练基础设施,推动人形机器人行业的发展。
详情查看:宇树科技G1-D正式上线

谷歌Gemini Live语音大升级,个性化语音交互再创新高
2025年11月13日,谷歌Gemini Live语音功能迎来了重磅升级,这一升级让AI语音交互进入了一个新的阶段,变得更加个性化和智能化。
这次升级带来了五大核心能力。首先是实时语速调节,你要是着急,跟它说 “讲快一点,我要赶去上课”,它马上就能加快语速;甚至你想练口语,说 “10 倍速陪我练口语”,它也能满足。其次是情绪感知和语气自适应,当它检测到你语气焦虑或者在讨论敏感话题,比如心理健康时,它会自动切换成舒缓、平稳的语速和声线,听起来特别贴心。口音个性注入也很有意思,支持牛仔腔、伦敦腔、复古播音腔等,以后点餐或者听故事,都能变得更有趣。在无障碍体验方面也有升级,专门为听障用户优化了语速、停顿和节奏。而且,它还能无缝融入 Google 生态,在 Maps 里不用唤醒就能查询 “附近充电桩”,抬腕靠近 Pixel Watch 就能 “无声启动” 对话。
和OpenAI ChatGPT的语音模式相比,Gemini Live的优势很明显。ChatGPT语音模式虽然也能实时对话,但缺乏动态调节能力,长时间交流容易让人觉得单调。而Gemini Live通过用户主导和 AI 自适应的双轮驱动,能给用户带来高度个性化的体验。在教育场景,学生可以加速听讲;导航时,司机能慢速确认路线;语言学习时,学习者能定制母语者语速循环练习。
不过,拟人化语音也带来了一些新问题。过度拟真可能会让人产生情感依赖,口音模拟可能会隐含文化刻板印象,实时语音处理对隐私保护的要求也更高了。好在谷歌表示,所有语音数据默认不存储,用户还能随时关闭个性化设置。
总的来说,Gemini Live 的升级让 AI 语音从单纯的工具变成了能共情、会调节、有性格的对话伙伴,重新定义了智能交互的标准。
详情查看:谷歌Gemini Live语音大升级AI语音进入“拟人化2.0”时代,剑指ChatGPT!
ElevenLabs与好莱坞明星合作,AI生成名人声音服务上线
ElevenLabs最近和好莱坞的一些大明星合作,推出了名人声音合成服务,这在娱乐圈和AI领域都引起了不小的关注。
其实,好莱坞对AI的态度也是经历了一些变化。一开始,因为担心AI技术监管缺失,还引发过行业罢工。但慢慢地,一些艺术家开始接受AI,发现它有很多潜在的应用价值。之前Meta公司就宣布要推出AI语音助手,用的是克里斯汀・贝尔和朱迪・丹奇的声音,这次ElevenLabs和明星的合作也是类似的方向。
这次合作中,像迈克尔・凯恩、马修・麦康纳等明星都参与其中。麦康纳作为ElevenLabs的投资者,他的AI声音可以把个人通讯转化为西班牙语音频,这不仅展示了AI在语言转换上的潜力,还能让他的作品在全球有更大的影响力。ElevenLabs 还推出了一个市场平台,品牌可以使用名人授权的AI生成声音。这样一来,品牌在做广告、宣传等活动时,就有了更多新的创意可能,明星们也多了一种展示自己的方式。
ElevenLabs可是现在很受欢迎的AI独角兽公司,背后有 Andreessen Horowitz(a16z)和 ICONIQ 等知名投资机构支持。随着 AI 技术的不断发展,以后在娱乐行业,AI 的应用场景肯定会越来越广泛,说不定以后电影里的配音、角色声音塑造都能看到 AI 的身影,真的很值得大家持续关注。
模型地址:ElevenLabs网页版官网

可灵 2.5Turbo模型上线首尾帧功能,视频生成可控性大幅提升
可灵模型最近有了新进展,推出了2.5Turbo版本,还同步上线了全新的首尾帧功能,这对于AI视频生成来说,是个非常大的提升。
和之前的 2.1 模型相比,可灵2.5Turbo模型在很多方面都有显著进步。动态效果更出色了,以前生成的视频可能动作看起来比较生硬,现在就流畅自然多了;文本响应精度也提高了,你输入的文本描述,它能更准确地转化为视频内容;风格保持能力也更强,不管是复古风、现代风还是卡通风,它都能很好地保持住;整体美学效果也有提升,画面看起来更舒服、更美观。
新上线的首尾帧功能更是一大亮点。在生成视频时,首尾帧往往很关键,它决定了视频的开头和结尾状态。有了这个功能,创作者就能更精准地控制视频的起点和终点。比如说,你想做一个广告视频,开头想要一个震撼的画面吸引观众,结尾想要一个温馨的画面给人留下好印象,通过首尾帧功能就能轻松实现,从而生成更高质量、更符合预期的 AI 视频。
可灵 2.5Turbo 模型凭借这些提升,在很多专业创意内容生产领域都有广阔的应用前景。影视制作中,可以用它快速生成高质量的视频素材;短剧制作能提高效率,降低成本;游戏开发里,能制作出更精美的过场动画;动画创作和广告营销也都能借助它的能力,制作出更吸引人的作品。
工具地址:可灵AI官网
在线体验: https://www.aitop100.cn/ai-video-generator/klingai-text2video

想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:









