• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

ARINAR:超越分形生成模型的新一代图像生成技术

ARINAR:超越分形生成模型的新一代图像生成技术
AI TOP100

探索ARINAR:图像生成领域的新突破

近年来,图像生成技术突飞猛进。澳大利亚国立大学的研究团队带来了一项令人瞩目的成果——ARINAR(Bi-Level Autoregressive Feature-by-Feature Generative Models)。该模型在图像生成质量和速度上均实现了显著提升,超越了何恺明团队提出的分形生成模型(FractalMAR),为GenAI模型的发展注入了新的活力。

FractalMAR通过递归调用原子生成模块,构建自相似的分形架构,提升了GenAI模型的模块化层次。而ARINAR在设计理念上与之相似,但性能更胜一筹。ARINAR的base模型在FID指标上从11.8提升至2.75,生成时间也从2分钟大幅缩短至12秒。相比于之前的扩散模型,ARINAR不仅性能更优,且在与目前表现最好的自回归模型MAR相比,ARINAR生成质量相当,但速度却提升了5倍。

ARINAR的设计动机:解决高维Token建模难题

传统的自回归(AR)图像生成模型通常采用逐token生成的方式。模型首先预测第一个token的分布,然后基于该分布采样生成token,以此类推,直至生成完整的图像。

这里的token可以被理解为图像的一种表示形式,通常通过自编码器(如VAE)实现图像与token序列之间的转换。每个token可以被视为图像的局部区域或特征的编码。

研究人员指出,逐token生成的核心挑战在于如何对高维token的复杂分布进行有效建模。每个token通常是一个高维向量(例如16维)。准确表达和预测下一个token的分布是关键难题。

现有方法主要有两种思路:

  1. 离散token生成:使用特殊的自编码器(如VQVAE)将图像转换为离散token,然后使用多项式分布建模token的分布。缺点是离散化过程会引入量化误差,降低生成图像的质量。
  2. 连续token生成:直接建模连续token的分布。例如,GIVT模型使用高斯混合模型(GMM)预测token分布,并从中采样生成token。然而,GMM难以准确拟合复杂的高维token分布。MAR模型则使用轻量级扩散模型生成token,但扩散过程需要多次迭代,导致生成速度较慢。

因此,ARINAR提出了逐特征生成的全新思路。模型不再一次性生成整个token,而是逐个特征生成。每个token由多个特征组成(例如16维),模型先生成第一个特征的分布并采样,然后基于该特征生成下一个特征的分布,依此类推,直至生成整个token。

ARINAR的方法设计:双层自回归结构

ARINAR模型采用双层自回归结构:

外层自回归层:负责生成token的条件向量。基于已生成的token,预测下一个token的条件向量。外层可以使用任意自回归模型,例如MAR。

内层自回归层:基于外层生成的条件向量,逐特征生成下一个token。内层先生成第一个特征,然后基于该特征生成第二个特征,以此类推,直到生成整个token。

如果一个图像被转换成256个16维的token,那么外层自回归模型会运行256次,每次预测下一个token的条件向量。每次外层自回归模型生成条件向量后,内层自回归模型会运行16次来逐特征生成相应的token。

这种双层结构的优势在于,内层自回归只需专注于单个特征的生成,而无需一次性建模整个token的分布。因此,内层可以使用简单的高斯混合模型(GMM)来建模单个特征的分布,大大简化了预测token分布的难度。

ARINAR与FractalMAR的关系:特征空间与像素空间

FractalMAR也是一个多层自回归模型,但在像素空间中逐像素生成图像。FractalMAR的每一层负责生成图像的不同部分,从大块区域到单个像素。例如,一个四层自回归模型可以这样运作:最外层生成整个图像的大块区域;第二层生成每个大块区域中的小块区域;第三层生成每个小块区域中的像素;最内层生成每个像素的RGB值。

ARINAR则是在特征空间中逐特征生成图像。ARINAR使用自编码器将图像转换为连续的特征表示,然后在这些特征上依赖GMM进行逐特征生成。

虽然ARINAR和FractalMAR的设计思路相似,但ARINAR在性能和速度上都优于FractalMAR。ARINAR可以被视为FractalMAR在潜在空间中的版本。

ARINAR的实验结果:质量与速度的双重提升

研究人员在ImageNet 256×256图像生成任务上对ARINAR进行了测试,使用了213M参数的模型(ARINAR-B)。

在生成质量方面,ARINAR-B在没有使用CFG(classifier-free guidance)的情况下,FID(Frechet Inception Distance)得分为9.17。使用CFG后,FID得分提升至2.75,与当前最先进的MAR-B模型(FID=2.31)相当,且显著超过了FractalMAR。

在生成速度方面,ARINAR-B生成一张图像的平均时间仅需11.57秒,而MAR-B需要65.69秒,FractalMAR-B则需要137.62秒。ARINAR在保持高质量生成的同时,显著提升了生成速度。

ARINAR的总结与展望

ARINAR通过逐特征生成的方式,简化了自回归模型的复杂度,同时提高了生成速度和生成质量。与FractalMAR相比,ARINAR在潜在空间中生成图像,避免了像素空间的复杂性,从而在性能和速度上都取得了更好的结果。

这篇论文展示了自回归模型在图像生成任务中的巨大潜力,尤其是在生成速度和生成质量之间的平衡上,ARINAR提供了一个非常有前景的解决方案。

然而,由于计算资源的限制(使用4张A100 GPU),研究人员在这篇论文中只训练了一个基础模型(ARINAR-B),并且训练时间长达8天。这限制了模型的进一步扩展和更大规模实验的进行。研究人员正在寻求更多的计算资源,以便进行更多实验和训练更大的模型。未来可能会有更多的研究成果发布,进一步验证ARINAR的潜力和可扩展性。

0
0
文章来源:AI TOP100
原文链接:https://36kr.com/p/3219698500127617
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 细思极恐!Meta竟然用色情片训练AI,背后隐藏的人性黑洞让人不寒而栗

  • 每日AI资讯-2025年08月22日

  • AutoClip:开源免费AI视频剪辑工具完全使用指南 - 自动化视频处理的革命性解决方案

  • Kimi K2 Turbo再突破!输出速度飙至每秒100 Tokens,效率翻倍还享5折优惠

  • ToonComposer:AI动画制作工具完全指南 - 从草图到专业动画的智能转换

热点资讯

即梦AI智能多帧功能上线:10张图生成54秒超长镜头,视频创作门槛大降!

1天前
即梦AI智能多帧功能上线:10张图生成54秒超长镜头,视频创作门槛大降!

DeepSeek V3.1正式发布:128K上下文窗口重新定义AI模型能力边界

4天前
DeepSeek V3.1正式发布:128K上下文窗口重新定义AI模型能力边界

可灵2.1首尾帧功能炸场!影视级转场+复杂运镜,一键解锁创作自由!

1天前
可灵2.1首尾帧功能炸场!影视级转场+复杂运镜,一键解锁创作自由!

AITOP100 AI应用重磅更新!Veo3、即梦AI 3.0、Vidu Q1、海螺AI、Luma全新升级

3天前
AITOP100 AI应用重磅更新!Veo3、即梦AI 3.0、Vidu Q1、海螺AI、Luma全新升级

DeepSeek V3.1全面技术解读:从架构到应用的系统性评估与对比分析

4天前
DeepSeek V3.1全面技术解读:从架构到应用的系统性评估与对比分析
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有