Freepik出手了!自研AI图像生成器F Lite来袭
最近,西班牙的数字图形大佬Freepik搞了个大新闻,推出了自家研发的文本到图像生成模型“F Lite”。 目标很明确,就是要跟最近因为版权问题闹得沸沸扬扬的Midjourney掰掰手腕,做个更靠谱、更安全的替代品。
这F Lite可不是闹着玩的,拥有100亿个参数。 更牛的是,它的“粮食”——训练数据,全部来自Freepik自家授权的图库。 Freepik拍着胸脯说,这可是业界首个完全用“安全可靠”内容训练的这么大规模的公开模型。
这宝贝疙瘩是Freepik和人工智能初创公司Fal.ai联手打造的。 前前后后花了两个多月,用了64块Nvidia H100 GPU,喂了大概8000万张Freepik内部数据集里的图片才搞定。
你瞧,Freepik用“单反相机拍摄的照片,一个红胡子男人在雨中跳舞”这个提示词生成的图,是不是有点复古,有点早期AI的味道?| 图片来源:THE DECODER 出品的 F Lite
Freepik推出F Lite,也算是加入了安全图像生成器的大军,跟Adobe、Getty Images、Shutterstock这些公司站在了一起。 现在OpenAI、Midjourney他们因为用了网上抓取的图片被告得焦头烂额,版权安全的数据集那可是香饽饽。
开源!开发者狂喜!
跟其他一些竞争对手不一样,Freepik把F Lite定位成一个开源的方案,让开发者们随便折腾。 这模型已经在GitHub上开源了,不过想跑起来,你的GPU得有至少24GB的显存。 想尝鲜的,Hugging Face上也提供了演示版本。
Freepik说了,F Lite在生成插画和矢量风格的作品方面那是相当给力,估计是得益于它用了自家目录里的数据训练。 不过,在生成照片级逼真的图像方面,这模型还有点欠火候, 比如皮肤纹理、织物这些细节经常会掉链子,处理复杂的人体结构场景也容易出错。 而且,因为模型主要用比较长的描述性文本训练的,所以处理简单的提示词也有点困难,想在图像里准确地生成文字,那更是一个挑战。
Freepik把这些不足归结于训练数据集的大小和用的计算资源。 他们强调说,扩散模型有著名的缩放定律——数据量和训练时间越多,图像质量和细节就会蹭蹭往上涨。
Freepik这公司是西班牙的,主要给设计师、企业和创意人士提供授权的数字图形资源,像矢量图形、照片、插画、图标、演示模板啥的。 除了付费订阅服务,也提供一些免费的内容。 这次推出F Lite,也说明Freepik不光想做素材库,还想在人工智能工具领域里也掺一脚。