• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

Gemini 2.0 Flash:AI图像编辑颠覆Photoshop,或率先实现AGI?

Gemini 2.0 Flash:AI图像编辑颠覆Photoshop,或率先实现AGI?
AI TOP100
2025-03-18 09:26:53

Gemini 2.0 Flash引爆AI图像编辑革命

谷歌的Gemini 2.0 Flash凭借其强大的图像编辑能力,特别是“一句话PS”功能,正在互联网上掀起一场风暴。 这项技术被认为将彻底改变广告行业,甚至有人认为模特行业将面临冲击。 无论是去除水印、生成趣味梗图,还是进行图像融合,Gemini 2.0 Flash都让用户玩得不亦乐乎。 一些人甚至大胆预测,谷歌已经全面超越OpenAI,并将率先实现AGI(通用人工智能)。

近期,谷歌在AI领域动作频频,其各种AI产品展现出全方位领先的态势,似乎正准备超越OpenAI。

现在,已经有分析人士预测,谷歌DeepMind将比OpenAI更早实现AGI!

原因很简单,谷歌DeepMind在多个领域的产品布局已经显示出全面获胜的迹象,而且,他们选择默默耕耘,而非大肆炒作。

AGI

谷歌AI产品优势一览:

  • 最佳通用模型:Gemini 2.0 Flash
  • 最佳多模态:Gemini 2.0 Flash / Gemini 2.0 Pro Experimental
  • 最佳原生图像生成:Gemini 2.0 Flash
  • 最佳文本/图像到视频:Veo-2
  • 最佳图像生成:Imagen-3
  • 最大的上下文窗口:2M (Gemini 2.0 Pro Experimental)

此外,谷歌的原生音频生成功能也将很快推出。

google deepmind

相比之下,OpenAI最近最引人注目的举动是提交了一份长达15页的提案,呼吁美国政府全面禁止DeepSeek,限制中国AI发展。 这种对比之下,孰优孰劣,一目了然。

总而言之,谷歌DeepMind不事张扬,不对其他竞争对手指手画脚,只是默默努力,给公众留下了务实的印象。

如今,谷歌DeepMind的发展势头愈发强劲。 倘若能将额外开发的技术推向市场,或将引发一场颠覆性的变革。

deepmind

超强推理能力:Gemini 2.0 Flash更懂图像生成

不久前,谷歌发布了其首个面向公众的全模态图像生成器——Gemini 2.0 Flash,标志着谷歌正式进军原生图像生成领域。

Gemini 2.0 Flash的“一句话就能PS”功能,迅速引起了网友的广泛关注。

Gemini 2.0 Flash更懂图像生成

在过去的几天里,Gemini 2.0 Flash引发的反响仍在持续。

用户纷纷尝试用它来去除水印、生成交叉图像等,并惊呼Gemini 2.0 Flash完全可以取代Photoshop。

那么,全模态图像生成器与其他AI图像生成模型相比,最大的区别是什么呢?

Gemini 2.0 Flash拥有强大的推理能力,能够结合现实世界的知识来生成更符合上下文的图像,理解更多的细节,并遵循特定的文化背景。

更重要的是,整个过程都由Gemini模型独立完成,无需调用其他模型,只需通过自然语言提示即可。

此外,传统的AI图像生成器需要分别处理文本和图像,而Gemini 2.0 Flash则可以同时输出文本和插图,并保持惊人的一致性。

Gemini 2.0 Flash的核心优势:

  • 真正的多模态能力:能够同时理解文字、图像以及二者之间的联系。
  • 理解世界知识:能够进行智能推理,结合现实世界的知识生成准确的内容。
  • 自然语言交互:仅通过对话即可修改图片,真正实现“一句话PS”。

如此强大且令人惊叹的修图功能,让网友Oleks预测:以图片销售为主营业务的公司,股价将会暴跌!

“一句话PS”:收费版Photoshop面临挑战

现在看来,Photoshop的确面临着前所未有的挑战。

视觉特效从业者Bilawal Sidhu表示,谷歌Gemini的新功能“一句话PS”将消除专业人士和普通用户之间的技术鸿沟。

他展示了5个例子,证明使用Gemini进行特效制作非常简单。

1. 将自己变成Roblox和Minecraft角色

2. Gemini深刻的场景理解能力

3. 为不同人物添加墨镜,效果良好

4. 3D线框+语义激光雷达点云测试

5. 补画与扩画 (in-painting and out-painting)

使用Gemini 2.0 Flash,将梗图修改成自己想要的样子变得非常简单。

想要制作其他脑洞大开的“梗图”也变得轻而易举。

即使是夜晚的照片,Gemini 2.0 Flash也能将其瞬间变成白天的照片。

可以看出,在将夜景转换为白天实景时,景观基本准确,没有出现幻觉。 如果要挑剔的话,那就是根据夜景图像生成的图像,在光照条件方面存在一些偏差。

这简直让人难以置信。

一些人亲自上手尝试后,不得不承认:谷歌这次确实很厉害。

最令人惊喜的是,Gemini 2.0 Flash几乎没有任何限制,可以毫无障碍地生成名人肖像和受版权保护的角色图像。

例如,CMU机器学习博士James Campbell就尝试将马斯克P到了自己的办公桌上。

照片中的人物神态自然,人物和背景融合得天衣无缝,很难看出是后期合成的。

网友们也纷纷进行实测,并表示这项功能非常棒!

从此,“一句话P图”的功能进入了一个新的阶段。

上班快迟到了,需要快速编一个理由? 打开Gemini 2.0 Flash,一键搞定!

只需一句话,美女手中的手机就能变成我们指定的那款。

Gemini 2.0 Flash和Pika的结合也产生了奇妙的效果。

为模特一键换装,简直做到了极致。

从此,我们不必再去影楼拍摄写真或证件照了,只需上传一张高清生活照即可!

同样,一张正面肖像照也可以切换至侧视图,或者缩小视角。

各种角度的照片都可以生成。

结合Kling后,可以直接生成广告大片,有望颠覆模特和广告行业。

角色一致性的保持程度也令人惊讶。

此外,这项功能还可以用来设计房屋。

比如,让家具消失,然后将房屋的装修风格改成现代时尚美学。 在美国,请室内设计师做这件事可能需要花费五千到一万美元。

甚至,Gemini 2.0 Flash还能帮助我们复原老照片。

去水印:网友们玩疯了!

在去除水印方面,Gemini 2.0 Flash也表现出色!

这项意外解锁的新技能让网友们激动不已。

这项功能免费且可以无限使用,而且不会因为删除水印而产生明显的空白区域。

在谷歌AI Studio上,可以使用“动动嘴,就能PS照片”的功能。

网友们对去水印功能情有独钟,很多人实测后都感到惊喜。

然而,这也引发了不少争议。 例如,摄影师和设计师的作品被盗用,可能会导致版权侵权行为更加泛滥。

交叉图像功能:一句话“讲故事”

谷歌DeepMind研究及深度学习负责人、Gemini项目共同负责人Oriol Vinyals对Gemini的新功能感到震惊!

在他看来,Gemini 2.0 Flash的交叉图像生成功能具有颠覆性意义。

如何向2岁女儿的班级解释AlphaFold的工作原理?

只需输入提示:“Write an illustrated story about AlphaFold for toddlers”,就能瞬间生成一本图文并茂、符合幼儿园风格的科普书。 Oriol Vinyals直呼这就是魔法!

AI可以让AlphaFold这样复杂的主题,对幼儿来说都变得更加容易理解。

Oriol Vinyals赞叹道:Gemini 2.0 Flash的交叉图像生成是一项革命性技术!

这个简单的演示向人们展示了AI+教育的无限可能性,未来的启蒙教育或许会变得更加有趣!

而且,Gemini 2.0 Flash现在允许用户输入任何人物或物体的图片,并在此基础上创作出全新的形象,同时还能较好地保持原始人物/角色的特征。

游戏、漫画、动漫圈沸腾

Gemini 2.0 Flash这项新功能甚至可以用来迭代图像,创建任何游戏!

同时,Gemini 2.0 Flash也直接“攻陷”了漫画圈。

现在使用Gemini 2.0 Flash来生成漫画,只需要动动嘴。

有网友尝试后发现自己根本停不下来。 只需一个简单的提示,就能进行选择性修改,而不会破坏整个图像。

他激动地表示,“用它来制作漫画和故事分镜会变得非常轻松”。

为漫画添加颜色也是一句话的事。

即使是漫画角色的动作——抬起手臂,也能用嘴完成。 而且,输出的图像与原图保持了高度的一致性。

动漫圈的二次元用户更是激动不已,有人惊呼,这是有史以来最好的动漫模型!

动漫创作的整个流程,Gemini 2.0 Flash都能按照指示完成,比如将素描转换为线稿;填充基础色;添加一些柔和的阴影,光源位于左上角;添加一个室内背景,使其与当前的光源和阴影环境相匹配,使用合适的角度;调整为单色灰度,以符合轻小说插画风格等等。

更多测试案例,请自行体验。

谷歌最新生成模型 Gemini API

此外,还有好消息传来。

开发者现在可以在Gemini 2.0 Flash Thinking Experimental的API中使用图片生成功能了!

用户免费使用限制为1500次/天,最多10次/分钟请求。 付费价格也很便宜,每百万tokens只需0.40美元。

Gemini API的开发者Logan Kilpatrick宣布,Gemini API文档已更新,现在可以使用代码生成图像了。

开发者可以使用API来生成图片,并开发各种有趣的应用。

即使不懂编程也没关系,可以将示例代码作为参考,并使用Cursor等AI编程工具来帮助编写生成图片的代码。

例如,在文档中,利用Python代码生成了“一只戴着高顶帽、长着翅膀的猪”在一座充满绿色植被的未来科幻城市上空飞翔的场景。

在API文档中,谷歌还指出了使用Gemini修图时的一些限制,如下所示。

Gemini API文档显示:使用编辑图片功能时,建议使用简体中文等语言,以获得最佳效果。

点击详情查看《Gemini 2.0 Flash Thinking》

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集

0
0
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • 谷歌Gemini:多模态人工智能语言模型
  • Gemini 2.0 Flash Thinking:AI智能助手模型
相关资讯
  • Midjourney推HD视频模式:分辨率提升4倍,专为专业用户打造

  • AI国际象棋大赛:Grok4领跑,DeepSeek惜败,Kimi K2淘汰惹争议

  • 通义万相国际版wan2.2开源第8天:色彩控制

  • 谷歌AI编程助手Jules正式上线:异步代码修复,重塑开发新体验

  • 重磅升级!Cursor1.4发布,异步任务+大型代码库优化双管齐下

热点资讯

AITOP100 AI应用重磅更新!即梦AI 3.0、Vidu Q1、海螺AI全新升级

1天前
AITOP100 AI应用重磅更新!即梦AI 3.0、Vidu Q1、海螺AI全新升级

Higgsfield AI新功能上线:高级别多参考功能,让创作更省心

3天前
Higgsfield AI新功能上线:高级别多参考功能,让创作更省心

重磅!微软Bing Search API确认8月11日停服,全球数十万开发者面临迁移危机

23小时前
重磅!微软Bing Search API确认8月11日停服,全球数十万开发者面临迁移危机

豆包理解图片的能力升级了:深度思考模式重新定义AI视觉理解

9天前
豆包理解图片的能力升级了:深度思考模式重新定义AI视觉理解

阿里Wan2.2正式发布:开源AI视频生成模型全面超越Sora,支持4K高清视频制作

6天前
阿里Wan2.2正式发布:开源AI视频生成模型全面超越Sora,支持4K高清视频制作
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有