重磅！字节跳动开源Liquid多模态AI模型，这玩意儿能干啥？-AITOP100,AI资讯

想象一下，有个模型既能看图说话，又能写文章，还能根据你的描述画出你想要的画面，是不是很酷？Liquid就是这么个东西。它是个自回归生成的多模态模型，核心在于把图片和文字都变成统一的“暗号”（离散token），然后让一个“大脑”（LLM）同时处理。厉害的是，它不用像以前的模型那样依赖外部的视觉“外挂”（CLIP），而是自己用VQVAE把图片变成“暗号”，这样模型结构更简单，训练也更快。

听说开发者们对Liquid的统一生成能力评价很高。不管你是想生成高清图片，还是理解复杂的场景，或者处理长篇大论，Liquid都能Hold住。更给力的是，字节把Liquid开源了，代码都在GitHub和Hugging Face上，这简直是给广大开发者送福利啊！

技术揭秘：一个大脑搞定所有任务

Liquid的架构主要围绕这几个技术点：

统一“暗号”空间：VQVAE把图片变成“暗号”，跟文字的“暗号”放在一起训练，这样模型就能随便切换视觉和语言任务，不用额外的扩散模块。
一个大脑（LLM）架构：在现有的大模型（比如Qwen2.5、Gemma2）的基础上，Liquid扩充了词汇表，然后用混合训练（60M多模态数据）同时优化视觉生成、视觉理解和语言能力，据说省了100倍的训练成本！
多模态互助：Liquid发现，视觉生成和理解任务可以在统一的“暗号”空间里互相帮助，解决了以前模型中任务互相干扰的问题。

小编认为，Liquid的自回归生成方式让它在生成高分辨率图片（FID5.47，MJHQ-30K）的时候比SD v2.1和SD-XL更厉害，而且在GenAI-Bench测试中也超越了其他的自回归多模态模型，说明它对复杂指令的理解能力很强。

重磅发现：模型越大，性能越好！

Liquid的核心研究发现颠覆了以前的认知。以前大家都觉得，小模型同时训练视觉和语言任务会导致语言能力下降。但是Liquid发现，模型越大，这种问题就越少，甚至还会出现互相促进的效果！

听说这个发现让开发者们炸开了锅。比如，Liquid-7B在视觉生成（VQAscore比Chameleon好）和语言任务（跟LLaMA2差不多）中都表现出色，验证了规模化训练的潜力。小编认为，这个发现为未来超大规模多模态模型的设计提供了重要的指导意义。

性能和开源生态：开发者的新玩具

Liquid的性能确实很给力。小编认为它在关键测试中的表现：

视觉生成：在MJHQ-30K测试中，Liquid-7B的FID值为5.47，比SD-XL和Chameleon更好，生成的图片细节和语义一致性都很棒。
视觉理解：在GenAI-Bench的复杂视觉-语言推理任务中，Liquid超越了其他自回归模型，接近了扩散模型的性能。
语言能力：得益于高质量的混合训练，Liquid在文本任务中保持了与主流大模型（如LLaMA2）相当的水平。

Liquid的开源策略更是放大了它的影响力。字节提供了从0.5B到32B的多种模型规模，开发者只需要基本的transformers库就可以运行推理或评估，不需要复杂的环境。听说已经有开发者开始基于Liquid开发各种创意应用了，比如文本驱动的艺术生成和多模态问答系统。

行业影响：多模态AI要变天？

Liquid的发布让字节跳动在多模态AI领域的地位更加稳固了。小编认为，跟OpenAI的Chameleon（需要从头训练）或者谷歌的Gemini（依赖外部视觉编码器）相比，Liquid用更低的训练成本和更高的灵活性提供了差不多的性能。它的开源模式和低成本API（输入每百万token0.2美元，输出1.1美元）对中小企业和独立开发者来说非常有吸引力。

对于整个行业来说，Liquid的统一生成范式为短视频创作、虚拟助手和教育内容生成等场景开辟了新的可能性。比如，营销团队可以用Liquid快速生成品牌风格的视频素材，教育机构可以创建交互式多模态课程。小编认为，Liquid的开源生态将催生更多基于其架构的定制模型，推动多模态AI的普及。

挑战和未来：路还很长

虽然Liquid表现出色，但小编也注意到用户提到的一些问题。比如，小规模模型的性能折衷还需要优化，复杂场景的生成可能会出现细节失真。小编建议开发者结合高质量数据集和精细的提示词来提升输出效果。此外，模型的数据隐私和伦理使用还需要进一步明确，尤其是在生成敏感内容的时候。

未来，字节跳动计划扩展Liquid的模态支持（比如音频、视频），并探索分布式训练以进一步降低成本。小编认为，随着社区贡献的增加，Liquid可能会在多模态代理和实时交互领域实现更大的突破。

论文地址：https://arxiv.org/pdf/2412.04332

想了解更多AI创作软件工具请关注AI 人工智能网站--AITOP100平台--AI工具集