每日AI资讯-2025年11月13日-AITOP100,AI资讯

李飞飞World Labs推Marble 3D世界模型，文本图片秒变虚拟宇宙

在AI领域，李飞飞可是响当当的人物，她创立的 World Labs在2025年11月13日，正式推出了Marble 3D世界模型的公测版，这一下可在行业里引起了不小的轰动。

这个Marble 3D世界模型到底有多牛？简单来说，它的多模态输入功能太强大了。你要是输入 “未来城市街景” 这样的文本提示，或者上传一张图片，甚至是多图、视频，它都能给你生成一个完整的 3D 世界。生成时间大概也就 10 分钟左右，而且生成的世界几何结构清晰，一致性强，你还能用鼠标导航浏览，就像自己身处其中一样。它还有内置的 Chisel 实验性 3D 编辑器，你可以先简单勾勒出空间布局，比如画个房间的轮廓，再用文本提示赋予它风格，像欧式古典风或者现代简约风都没问题。完成后，还能把生成的 3D 世界导出为高斯溅射、三角网格或视频格式，方便在游戏开发、视觉特效等项目里使用。

在 “世界模型” 这个赛道上，Marble 的竞争力很强。像谷歌 DeepMind 的 Genie 还在研究预览阶段，其他一些初创公司也还在演示阶段，而 Marble 已经进入公测了。它专注于 3D 内容生成，填补了当前 AI 多局限于 2D 文本 / 图像的空白，给机器人训练模拟和影视制作等带来了新的可能。而且，它或许还能改变视频数据生成的方式，从 3D 世界导出视频序列，结合 AI 增强，能制造出更有空间深度的训练数据集。

未来，随着模型不断迭代，Marble肯定会越来越厉害。现在它有免费版和付费版，免费版能让你体验基础的生成功能，要是想有更多配额和商业使用权，就可以选择付费计划，标准版 20 美元 / 月起。感兴趣的开发者们，不妨去试试，说不定能打开新世界的大门！

工具地址：Marble 3D世界模型官网入口（海外网站需要科学上网）

Marble 3D世界模型

百度猎户座AI引擎正式发布，搜索技术与AI能力全面开放

百度今日放出大招，正式推出了 “百度猎户座” AI引擎。这可不是一个简单的引擎，它可是百度 25 年来搜索技术与前沿 AI 能力的大集合，对企业和开发者来说，这简直就是个宝藏。

百度猎户座整合了搜索 AI API、MCP 多模态计算平台以及各类行业优势能力。企业和开发者只要简单接入，就能调用它的原生能力。比如说，以前开发一个智能客服，可能要花费大量的时间和精力去搭建各种技术框架，现在有了百度猎户座，直接调用相关能力，就能快速搭建出智能客服系统。而且，它还能用于数据分析，帮企业从海量的数据中快速提取有价值的信息；在内容生成方面也不在话下，像写文案、做设计，它都能提供助力。

在搜索引擎优化方面，百度猎户座能让搜索结果更精准、更智能，提升用户的搜索体验。在各个垂直领域，比如电商、教育、医疗等，它也能发挥重要作用。电商企业可以利用它优化商品推荐系统，教育机构可以用它开发智能学习辅助工具，医疗机构可以借助它进行医疗影像分析等。有了百度猎户座，企业的业务效率有望得到大幅提升，能更好地满足市场需求。

百度猎户座AI引擎的发布，是百度在AI技术应用上的一个重要里程碑。它降低了企业和开发者使用 AI 技术的门槛，让更多人能够享受到AI带来的便利。相信在未来，百度猎户座会在市场上大放异彩，为各行各业的发展注入新的活力。

百度，百度猎户座AI引擎

文心大模型5.0发布，开启原生全模态新时代

在百度世界大会上，李彦宏正式发布了文心大模型 5.0，这一发布可是吸引了无数人的目光，它被定义为 “统一的原生全模态模型”，标志着国产大模型迈入了一个全新的阶段。

文心大模型5.0最大的亮点就是它的原生全模态能力。和行业里主流的 “多模态拼接” 方案不同，它不是先让视觉模型识别图像，再让语言模型生成描述，而是从底层架构就实现了文本、图像、语音的统一表征与联合训练。比如说，你问它 “描述这张照片中人物的情绪变化”，它能直接理解并回答，而不需要切换不同的模式。再比如，让它 “根据这段旋律生成匹配的诗歌”，它也能轻松完成，真正做到了 “边看边听边理解”，处理跨模态复杂任务的能力超强。

从即日起，文心大模型 5.0 已经上线百度智能云千帆大模型平台。企业和开发者这下可方便了，直接调用它的全模态能力，就能快速构建各种应用。想做一个智能客服，用文心大模型 5.0 就能让客服更智能，理解用户的意图更准确；要是做 AI 创作，无论是写小说、诗歌还是绘画，它都能提供灵感和素材；在工业质检领域，它能通过分析图像和数据，快速检测出产品的质量问题；多模态搜索方面，它能让搜索结果更全面、更精准。

百度选择以 “原生全模态” 为突破口，避开了纯文本赛道的同质化竞争。在很多行业，像智能工厂需要理解图文工单，医疗影像诊断需要多模态辅助，教育场景的 “看图说话” 互动教学等，文心大模型5.0 都能发挥重要作用。它的出现，将大大提升人机交互的自然度，让AI真正服务于现实世界，重新定义下一代大模型的技术标准。

模型地址：百度文心一言5.0

文心大模型5.0

宇树科技推出G1-D人形机器人工作站，一站式支持AI模型开发

宇树科技最近在人形机器人领域又有新动作，推出了以全新轮式人形机器人 G1-D 为核心载体的人形机器人数据采集训练全栈解决方案，这可是个能一站式支持 AI 模型开发的工作站。

这个工作站的功能十分强大。它集成了数据采集、处理、标注、审核以及数据资产管理功能，形成了一个高效的数据流管理系统。在模型训练方面，它能提供模型分布式训练、自定义模型训练开发与部署服务，还全面支持主流开源模型框架，这就大大提升了人形机器人 AI 模型的研发效率。

作为工作站的基础硬件，G1-D 机器人的设计也很有讲究。它的身高范围在 1260mm 至 1680mm 之间，头部配备高清双目相机，手部也有高清相机，能从多维度捕获高质量的视觉数据。它采用轮式与升降相结合的移动设计，垂直作业空间可达 0 - 2 米，腰关节运动空间大，可实现 Z 轴 ±155°、Y 轴 - 2.5°~ + 135° 的运动。在核心性能上，G1-D 通用版和旗舰版分别有 17 和 19 个整机自由度（不含末端），单臂自由度为 7 个，单臂最大负载约为 3kg，旗舰版还可选配移动底盘，移动速度最高可达 1.5m/s。

宇树科技推出的 G1-D 数采训练全栈解决方案，意义重大。它标志着人形机器人从单纯的硬件平台向 “硬件 + 数据 + AI” 生态平台迈进。以前，人形机器人可能只是一个机械装置，现在有了这个工作站，它就能成为一个智能的载体，为行业提供高效、集成化的 AI 训练基础设施，推动人形机器人行业的发展。

详情查看：宇树科技G1-D正式上线

宇树科技推出G1-D人形机器人

谷歌Gemini Live语音大升级，个性化语音交互再创新高

2025年11月13日，谷歌Gemini Live语音功能迎来了重磅升级，这一升级让AI语音交互进入了一个新的阶段，变得更加个性化和智能化。

这次升级带来了五大核心能力。首先是实时语速调节，你要是着急，跟它说 “讲快一点，我要赶去上课”，它马上就能加快语速；甚至你想练口语，说 “10 倍速陪我练口语”，它也能满足。其次是情绪感知和语气自适应，当它检测到你语气焦虑或者在讨论敏感话题，比如心理健康时，它会自动切换成舒缓、平稳的语速和声线，听起来特别贴心。口音个性注入也很有意思，支持牛仔腔、伦敦腔、复古播音腔等，以后点餐或者听故事，都能变得更有趣。在无障碍体验方面也有升级，专门为听障用户优化了语速、停顿和节奏。而且，它还能无缝融入 Google 生态，在 Maps 里不用唤醒就能查询 “附近充电桩”，抬腕靠近 Pixel Watch 就能 “无声启动” 对话。

和OpenAI ChatGPT的语音模式相比，Gemini Live的优势很明显。ChatGPT语音模式虽然也能实时对话，但缺乏动态调节能力，长时间交流容易让人觉得单调。而Gemini Live通过用户主导和 AI 自适应的双轮驱动，能给用户带来高度个性化的体验。在教育场景，学生可以加速听讲；导航时，司机能慢速确认路线；语言学习时，学习者能定制母语者语速循环练习。

不过，拟人化语音也带来了一些新问题。过度拟真可能会让人产生情感依赖，口音模拟可能会隐含文化刻板印象，实时语音处理对隐私保护的要求也更高了。好在谷歌表示，所有语音数据默认不存储，用户还能随时关闭个性化设置。

总的来说，Gemini Live 的升级让 AI 语音从单纯的工具变成了能共情、会调节、有性格的对话伙伴，重新定义了智能交互的标准。

详情查看：谷歌Gemini Live语音大升级AI语音进入“拟人化2.0”时代，剑指ChatGPT！

ElevenLabs与好莱坞明星合作，AI生成名人声音服务上线

ElevenLabs最近和好莱坞的一些大明星合作，推出了名人声音合成服务，这在娱乐圈和AI领域都引起了不小的关注。

其实，好莱坞对AI的态度也是经历了一些变化。一开始，因为担心AI技术监管缺失，还引发过行业罢工。但慢慢地，一些艺术家开始接受AI，发现它有很多潜在的应用价值。之前Meta公司就宣布要推出AI语音助手，用的是克里斯汀・贝尔和朱迪・丹奇的声音，这次ElevenLabs和明星的合作也是类似的方向。

这次合作中，像迈克尔・凯恩、马修・麦康纳等明星都参与其中。麦康纳作为ElevenLabs的投资者，他的AI声音可以把个人通讯转化为西班牙语音频，这不仅展示了AI在语言转换上的潜力，还能让他的作品在全球有更大的影响力。ElevenLabs 还推出了一个市场平台，品牌可以使用名人授权的AI生成声音。这样一来，品牌在做广告、宣传等活动时，就有了更多新的创意可能，明星们也多了一种展示自己的方式。

ElevenLabs可是现在很受欢迎的AI独角兽公司，背后有 Andreessen Horowitz（a16z）和 ICONIQ 等知名投资机构支持。随着 AI 技术的不断发展，以后在娱乐行业，AI 的应用场景肯定会越来越广泛，说不定以后电影里的配音、角色声音塑造都能看到 AI 的身影，真的很值得大家持续关注。

模型地址：ElevenLabs网页版官网

ElevenLabs

可灵 2.5Turbo模型上线首尾帧功能，视频生成可控性大幅提升

可灵模型最近有了新进展，推出了2.5Turbo版本，还同步上线了全新的首尾帧功能，这对于AI视频生成来说，是个非常大的提升。

和之前的 2.1 模型相比，可灵2.5Turbo模型在很多方面都有显著进步。动态效果更出色了，以前生成的视频可能动作看起来比较生硬，现在就流畅自然多了；文本响应精度也提高了，你输入的文本描述，它能更准确地转化为视频内容；风格保持能力也更强，不管是复古风、现代风还是卡通风，它都能很好地保持住；整体美学效果也有提升，画面看起来更舒服、更美观。

新上线的首尾帧功能更是一大亮点。在生成视频时，首尾帧往往很关键，它决定了视频的开头和结尾状态。有了这个功能，创作者就能更精准地控制视频的起点和终点。比如说，你想做一个广告视频，开头想要一个震撼的画面吸引观众，结尾想要一个温馨的画面给人留下好印象，通过首尾帧功能就能轻松实现，从而生成更高质量、更符合预期的 AI 视频。

可灵 2.5Turbo 模型凭借这些提升，在很多专业创意内容生产领域都有广阔的应用前景。影视制作中，可以用它快速生成高质量的视频素材；短剧制作能提高效率，降低成本；游戏开发里，能制作出更精美的过场动画；动画创作和广告营销也都能借助它的能力，制作出更吸引人的作品。

工具地址：可灵AI官网

在线体验： https://www.aitop100.cn/ai-video-generator/klingai-text2video

可灵AI