AI绘画界大事件:EasyControl给DiT模型“上保险”!
最近,AI绘画圈子里有个事儿挺火的,就是那个扩散模型(Diffusion Model)啊,它正从Unet架构往Transformer架构(DiT)变。但DiT模型有个缺点,就是插件不太好用,效率也不高,控制起来不够灵活。这不,有个叫EasyControl的框架就出来了,它能给DiT模型提供超强的条件控制能力,就像给它装了个“ControlNet”一样,想画啥,就能控制着画啥!
EasyControl凭啥这么牛?三大绝招揭秘!
EasyControl可不是简单的模型叠加,它是一套精心设计的DiT框架,有三大绝招:
- 轻量级条件注入LoRA模块(Condition Injection LoRA module): 轻巧灵活,插入方便。
- 位置感知训练范式(Position-Aware Training Paradigm): 让模型更懂空间位置关系。
- 因果注意力机制(Causal Attention)+ KV缓存(KV Cache): 加快推理速度,效率更高。
这三大绝招让EasyControl在模型兼容性、生成灵活性和推理效率方面都表现得相当出色!
不止Canny和OpenPose:EasyControl的“十八般武艺”
EasyControl最厉害的地方就是它能支持各种各样的控制模型,简直是“十八般武艺样样精通”!像什么Canny边缘检测、深度信息、HED边缘草图、图像修复(Inpainting)、人体姿态(Pose,类似OpenPose)、语义分割(Seg),通通不在话下!
有了这些控制,你就能精确地引导DiT模型生成你想要的图像。比如,用Canny控制,就能画出物体的轮廓;用姿态控制,就能画出人物的各种动作。想象力有多丰富,就能画出多精彩的图像!
一键变身吉卜力画风:你的头像秒变动漫主角!
除了控制结构,EasyControl还能玩转风格迁移,特别是那个吉卜力画风转换,简直绝了!据说,他们只用了100张亚洲人脸和GPT-4o生成的吉卜力风格图像进行训练,就开发出了专门的LoRA模型。这个模型能把人像变成经典吉卜力动画风格,而且还能保留原始的面部特征!想让你的头像变成动漫主角吗?上传照片,配上提示词,一键搞定!
EasyControl团队已经放出了推理代码和预训练权重,他们还计划推出空间预训练权重、主体预训练权重和训练代码。看来,EasyControl以后会越来越完善,功能也会越来越强大!
总而言之小编认为,EasyControl给基于Transformer的扩散模型带来了强大的控制能力,让DiT模型不再“放飞自我”,想画啥就画啥!它支持多种控制模式,还能一键生成吉卜力画风,简直是AI绘画领域的一颗闪亮新星!EasyControl有望成为DiT模型生态中不可或缺的一部分,让AI绘画变得更加简单、高效和有趣!