Gemini 2.0 Flash引爆AI图像编辑革命
谷歌的Gemini 2.0 Flash凭借其强大的图像编辑能力,特别是“一句话PS”功能,正在互联网上掀起一场风暴。 这项技术被认为将彻底改变广告行业,甚至有人认为模特行业将面临冲击。 无论是去除水印、生成趣味梗图,还是进行图像融合,Gemini 2.0 Flash都让用户玩得不亦乐乎。 一些人甚至大胆预测,谷歌已经全面超越OpenAI,并将率先实现AGI(通用人工智能)。
近期,谷歌在AI领域动作频频,其各种AI产品展现出全方位领先的态势,似乎正准备超越OpenAI。
现在,已经有分析人士预测,谷歌DeepMind将比OpenAI更早实现AGI!
原因很简单,谷歌DeepMind在多个领域的产品布局已经显示出全面获胜的迹象,而且,他们选择默默耕耘,而非大肆炒作。
谷歌AI产品优势一览:
- 最佳通用模型:Gemini 2.0 Flash
- 最佳多模态:Gemini 2.0 Flash / Gemini 2.0 Pro Experimental
- 最佳原生图像生成:Gemini 2.0 Flash
- 最佳文本/图像到视频:Veo-2
- 最佳图像生成:Imagen-3
- 最大的上下文窗口:2M (Gemini 2.0 Pro Experimental)
此外,谷歌的原生音频生成功能也将很快推出。
相比之下,OpenAI最近最引人注目的举动是提交了一份长达15页的提案,呼吁美国政府全面禁止DeepSeek,限制中国AI发展。 这种对比之下,孰优孰劣,一目了然。
总而言之,谷歌DeepMind不事张扬,不对其他竞争对手指手画脚,只是默默努力,给公众留下了务实的印象。
如今,谷歌DeepMind的发展势头愈发强劲。 倘若能将额外开发的技术推向市场,或将引发一场颠覆性的变革。
超强推理能力:Gemini 2.0 Flash更懂图像生成
不久前,谷歌发布了其首个面向公众的全模态图像生成器——Gemini 2.0 Flash,标志着谷歌正式进军原生图像生成领域。
Gemini 2.0 Flash的“一句话就能PS”功能,迅速引起了网友的广泛关注。
在过去的几天里,Gemini 2.0 Flash引发的反响仍在持续。
用户纷纷尝试用它来去除水印、生成交叉图像等,并惊呼Gemini 2.0 Flash完全可以取代Photoshop。
那么,全模态图像生成器与其他AI图像生成模型相比,最大的区别是什么呢?
Gemini 2.0 Flash拥有强大的推理能力,能够结合现实世界的知识来生成更符合上下文的图像,理解更多的细节,并遵循特定的文化背景。
更重要的是,整个过程都由Gemini模型独立完成,无需调用其他模型,只需通过自然语言提示即可。
此外,传统的AI图像生成器需要分别处理文本和图像,而Gemini 2.0 Flash则可以同时输出文本和插图,并保持惊人的一致性。
Gemini 2.0 Flash的核心优势:
- 真正的多模态能力:能够同时理解文字、图像以及二者之间的联系。
- 理解世界知识:能够进行智能推理,结合现实世界的知识生成准确的内容。
- 自然语言交互:仅通过对话即可修改图片,真正实现“一句话PS”。
如此强大且令人惊叹的修图功能,让网友Oleks预测:以图片销售为主营业务的公司,股价将会暴跌!
“一句话PS”:收费版Photoshop面临挑战
现在看来,Photoshop的确面临着前所未有的挑战。
视觉特效从业者Bilawal Sidhu表示,谷歌Gemini的新功能“一句话PS”将消除专业人士和普通用户之间的技术鸿沟。
他展示了5个例子,证明使用Gemini进行特效制作非常简单。
1. 将自己变成Roblox和Minecraft角色
2. Gemini深刻的场景理解能力
3. 为不同人物添加墨镜,效果良好
4. 3D线框+语义激光雷达点云测试
5. 补画与扩画 (in-painting and out-painting)
使用Gemini 2.0 Flash,将梗图修改成自己想要的样子变得非常简单。
想要制作其他脑洞大开的“梗图”也变得轻而易举。
即使是夜晚的照片,Gemini 2.0 Flash也能将其瞬间变成白天的照片。
可以看出,在将夜景转换为白天实景时,景观基本准确,没有出现幻觉。 如果要挑剔的话,那就是根据夜景图像生成的图像,在光照条件方面存在一些偏差。
这简直让人难以置信。
一些人亲自上手尝试后,不得不承认:谷歌这次确实很厉害。
最令人惊喜的是,Gemini 2.0 Flash几乎没有任何限制,可以毫无障碍地生成名人肖像和受版权保护的角色图像。
例如,CMU机器学习博士James Campbell就尝试将马斯克P到了自己的办公桌上。
照片中的人物神态自然,人物和背景融合得天衣无缝,很难看出是后期合成的。
网友们也纷纷进行实测,并表示这项功能非常棒!
从此,“一句话P图”的功能进入了一个新的阶段。
上班快迟到了,需要快速编一个理由? 打开Gemini 2.0 Flash,一键搞定!
只需一句话,美女手中的手机就能变成我们指定的那款。
Gemini 2.0 Flash和Pika的结合也产生了奇妙的效果。
为模特一键换装,简直做到了极致。
从此,我们不必再去影楼拍摄写真或证件照了,只需上传一张高清生活照即可!
同样,一张正面肖像照也可以切换至侧视图,或者缩小视角。
各种角度的照片都可以生成。
结合Kling后,可以直接生成广告大片,有望颠覆模特和广告行业。
角色一致性的保持程度也令人惊讶。
此外,这项功能还可以用来设计房屋。
比如,让家具消失,然后将房屋的装修风格改成现代时尚美学。 在美国,请室内设计师做这件事可能需要花费五千到一万美元。
甚至,Gemini 2.0 Flash还能帮助我们复原老照片。
去水印:网友们玩疯了!
在去除水印方面,Gemini 2.0 Flash也表现出色!
这项意外解锁的新技能让网友们激动不已。
这项功能免费且可以无限使用,而且不会因为删除水印而产生明显的空白区域。
在谷歌AI Studio上,可以使用“动动嘴,就能PS照片”的功能。
网友们对去水印功能情有独钟,很多人实测后都感到惊喜。
然而,这也引发了不少争议。 例如,摄影师和设计师的作品被盗用,可能会导致版权侵权行为更加泛滥。
交叉图像功能:一句话“讲故事”
谷歌DeepMind研究及深度学习负责人、Gemini项目共同负责人Oriol Vinyals对Gemini的新功能感到震惊!
在他看来,Gemini 2.0 Flash的交叉图像生成功能具有颠覆性意义。
如何向2岁女儿的班级解释AlphaFold的工作原理?
只需输入提示:“Write an illustrated story about AlphaFold for toddlers”,就能瞬间生成一本图文并茂、符合幼儿园风格的科普书。 Oriol Vinyals直呼这就是魔法!
AI可以让AlphaFold这样复杂的主题,对幼儿来说都变得更加容易理解。
Oriol Vinyals赞叹道:Gemini 2.0 Flash的交叉图像生成是一项革命性技术!
这个简单的演示向人们展示了AI+教育的无限可能性,未来的启蒙教育或许会变得更加有趣!
而且,Gemini 2.0 Flash现在允许用户输入任何人物或物体的图片,并在此基础上创作出全新的形象,同时还能较好地保持原始人物/角色的特征。
游戏、漫画、动漫圈沸腾
Gemini 2.0 Flash这项新功能甚至可以用来迭代图像,创建任何游戏!
同时,Gemini 2.0 Flash也直接“攻陷”了漫画圈。
现在使用Gemini 2.0 Flash来生成漫画,只需要动动嘴。
有网友尝试后发现自己根本停不下来。 只需一个简单的提示,就能进行选择性修改,而不会破坏整个图像。
他激动地表示,“用它来制作漫画和故事分镜会变得非常轻松”。
为漫画添加颜色也是一句话的事。
即使是漫画角色的动作——抬起手臂,也能用嘴完成。 而且,输出的图像与原图保持了高度的一致性。
动漫圈的二次元用户更是激动不已,有人惊呼,这是有史以来最好的动漫模型!
动漫创作的整个流程,Gemini 2.0 Flash都能按照指示完成,比如将素描转换为线稿;填充基础色;添加一些柔和的阴影,光源位于左上角;添加一个室内背景,使其与当前的光源和阴影环境相匹配,使用合适的角度;调整为单色灰度,以符合轻小说插画风格等等。
更多测试案例,请自行体验。
谷歌最新生成模型 Gemini API
此外,还有好消息传来。
开发者现在可以在Gemini 2.0 Flash Thinking Experimental的API中使用图片生成功能了!
用户免费使用限制为1500次/天,最多10次/分钟请求。 付费价格也很便宜,每百万tokens只需0.40美元。
Gemini API的开发者Logan Kilpatrick宣布,Gemini API文档已更新,现在可以使用代码生成图像了。
开发者可以使用API来生成图片,并开发各种有趣的应用。
即使不懂编程也没关系,可以将示例代码作为参考,并使用Cursor等AI编程工具来帮助编写生成图片的代码。
例如,在文档中,利用Python代码生成了“一只戴着高顶帽、长着翅膀的猪”在一座充满绿色植被的未来科幻城市上空飞翔的场景。
在API文档中,谷歌还指出了使用Gemini修图时的一些限制,如下所示。
Gemini API文档显示:使用编辑图片功能时,建议使用简体中文等语言,以获得最佳效果。