谷歌Flow新增图像编辑功能,抠图转视频30秒搞定
做短视频或电商海报的朋友有福利了,2025年11月12诶,谷歌给旗下AI电影工具Flow加了个实用功能——新增图像编辑模块,核心是集成了Gemini2.5Flash图像模型,内部代号叫Nano Banana。不管是免费版还是付费版Gemini用户都能用,单张处理费0.039美元,企业用户也能通过Vertex AI接入。
用法特别简单,上传照片后直接说需求就行,比如“去掉背景加柔光”“把人放到月球上”,系统会自动出透明图或合成图,连发丝级的细节都能保留。实测拿一张街拍人物照处理后拖进Flow,30秒就做出了“人物 + 奇幻森林”的8秒动态镜头,面部和衣服纹理还很统一。
值得一提的是,所有生成的图都自带SynthID隐形水印,不怕版权纠纷。官方说下个月会开放批量处理的API接口,明显是瞄准了短视频制作、电商海报这些需要大量出图的场景,效率能提不少。
工具地址:谷歌Flow官网(海外网站需要科学上网)

开源AI助手MiroThinker上线,零人工干预能做甜品方案
MiroMind团队刚开源了一款叫MiroThinker v1.0的AI智能体,最亮眼的是256K的大上下文窗口,单次能调用600次工具,还提出了个“深度交互Scaling”框架,不靠堆参数靠反复交互进化。现在代码和模型权重已经放GitHub和Hugging Face上了,有24GB显存的电脑就能本地装。
这款模型集成了搜索、代码执行、语音转写这些常用工具,复杂任务能自己闭环。官方给的例子很有意思,它用600次工具调用,自己找食谱、模拟配方、算热量、调甜味剂比例,最后拿出了带营养分析和成本对比的低糖甜品方案,全程没人管。
开发团队说性能好坏取决于交互深度和反思频率,工具用得越勤、反馈越及时,能力越强。开发者还能自定义工具集,对接LangChain这些框架。下一步打算把工具调用次数提到上千次,还要做百万级上下文的版本。业内有人说,这开源一出,智能体领域可能要掀起技术竞赛了。

Gemini 3内测效果曝光,能做游戏还能复刻Switch模拟器
还没正式发布的谷歌Gemini 3,通过Canvas功能提前露了手,在开发者圈子里火了。内测情况显示,它的前端能力超强,能把《我的世界》和塔防玩法实时拼成可玩的网页游戏,甚至能做个单文件的Switch模拟器玩宝可梦。
除了游戏,它还能一句话生成响应式网页、做黑洞可视化效果,甚至克隆个能放视频的YouTube,输出的都是单个HTML文件,直接用Chrome就能打开。SVG绘图能力也升级了,画的苹果手机和Xbox手柄没有拼接痕迹,动画流畅度比Claude 4.5和GPT - 5.1还强。
市场反应很直接,巴菲特的伯克希尔·哈撒韦加仓了43亿美元Alphabet股票,据说巴菲特亲眼见它完成Python转Rust的迁移才决定买的。谷歌CEO也暗示快官宣了,内部消息说Gemini 3分Pro、Flash、Ultra三档,用MoE架构,上下文窗口数百万token,11月22日正式发布。
模型地址:谷歌Gemini网页版官网(海外网站需要科学上网)

夸克千问助手上线,阿里Qwen模型撑场覆盖多场景
今天夸克和阿里同步放大招,夸克上线了基于阿里Qwen模型的千问助手,阿里自己的千问App也开启公测了。这款App主打造个人AI助手,靠开源的通义千问Qwen模型打底,不仅能聊天,还能办正事。
目前覆盖的场景挺全,办公时能做文档处理,出门能导航,想了解健康知识或购物比价也能用,算是一站式解决方案。夸克还专门给了使用指南,新手也能快速上手。官方说核心是让AI真正融入生活,提升办事效率。
从行业趋势看,阿里这步是把大模型能力落地到具体应用了。不管是夸克的内置助手还是独立的千问App,都在往“实用化”靠,不像有些工具只停留在聊天层面。随着后续迭代,场景估计还会扩,比如教育、医疗这些领域可能都会涉及。

AI聚合平台MuleRun 2.0走红,30天吸粉50万
一款叫MuleRun的AI Agent聚合平台,2.0版本上线才30天,全球注册用户就破了50万,其中美国用户最多。它的核心玩法是“Agent团队”,选好职业身份后,系统会推荐不同功能的AI助手,自己拼组起来完成复杂任务。
现在平台上已经接入了几百个应用,比如阿里国际站的PicCopilot、Quick BI报表工具,还有Sora视频生成这些热门功能,电商运营要做商品图、数据分析要做报表、内容创作要剪视频,都能在这搞定。最让人放心的是支持Python/SQL代码追溯,宣称“零幻觉风险”。
官方说下个月会推出订阅制和企业私有化部署服务。有分析说,它相当于把零散的AI能力整合成了“工具箱”,普通人不用懂技术也能用好AI,但后续要解决合规和版权问题,不然容易出纠纷。这种聚合模式确实降低了使用门槛,难怪能快速涨粉。
工具地址:MuleRun网页版官网(海外网站需要科学上网)

马斯克宣布Grok 5延期,6万亿参数瞄准通用人工智能
马斯克在专访里确认,xAI的下一代大模型Grok 5要推迟到2026年第一季度发布,不过参数加到了6万亿,还能原生理解视频,官方说“每GB智能密度”刷新了行业纪录。为了训这个模型,xAI正在扩建GPU集群,还会用X平台的实时数据当训练素材。
这款模型用了多模态MoE架构,长视频能一次性解析,还能回答时间线相关的问题,目标很明确就是冲击通用人工智能(AGI)。同时曝光的还有特斯拉Optimus机器人计划,未来年产量要到100万台,成本压到2 - 3万美元,手部设计灵活能做精细装配。
另外Neuralink已经给10多位瘫痪患者植入了设备,未来会和Optimus配合,帮残障人士提升行动能力。虽然Grok 5延期了,但xAI说今年会先推Grok 3.5中型版本,孟菲斯超算也要扩到150万颗GPU,为明年上线做准备。
工具地址:GrokAI网页版官网 (海外网站需要科学上网)

谷歌NotebookLM支持图像导入,板书秒变可查知识库
学生和职场人要留意了,谷歌NotebookLM刚升级了图像导入功能,不管是黑板板书、教材扫描页还是街上拍的表格,传上去后系统会自动识别文字、解析语义,直接用自然语言就能查内容,全平台免费使用。
底层用的多模态模型很智能,能分清手写和印刷字,还能提取表格结构,和之前的文本、音频笔记自动关联。演示里的场景特别实用:拍下课板书问“左下角公式怎么推”,立马定位并讲步骤;扫教材表格能直接查单元格数据;拍咖啡店菜单,拿铁价格秒提取。
上线才48小时,教育账号就传了50万页图像,比之前多了340%。官方说未来几周会加本地处理功能,敏感资料不用传云端更安全。明年还计划对接AR眼镜,实现“看到什么就能问什么”。目前图像处理不额外收费,沿用原来的免费配额,没说会不会出付费加速服务。
工具地址:谷歌NotebookLM网页版官网 (海外网站需要科学上网)
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:









