想象一下,有个模型既能看图说话,又能写文章,还能根据你的描述画出你想要的画面,是不是很酷?Liquid就是这么个东西。它是个自回归生成的多模态模型,核心在于把图片和文字都变成统一的“暗号”(离散token),然后让一个“大脑”(LLM)同时处理。厉害的是,它不用像以前的模型那样依赖外部的视觉“外挂”(CLIP),而是自己用VQVAE把图片变成“暗号”,这样模型结构更简单,训练也更快。
听说开发者们对Liquid的统一生成能力评价很高。不管你是想生成高清图片,还是理解复杂的场景,或者处理长篇大论,Liquid都能Hold住。更给力的是,字节把Liquid开源了,代码都在GitHub和Hugging Face上,这简直是给广大开发者送福利啊!
技术揭秘:一个大脑搞定所有任务
Liquid的架构主要围绕这几个技术点:
- 统一“暗号”空间:VQVAE把图片变成“暗号”,跟文字的“暗号”放在一起训练,这样模型就能随便切换视觉和语言任务,不用额外的扩散模块。
- 一个大脑(LLM)架构:在现有的大模型(比如Qwen2.5、Gemma2)的基础上,Liquid扩充了词汇表,然后用混合训练(60M多模态数据)同时优化视觉生成、视觉理解和语言能力,据说省了100倍的训练成本!
- 多模态互助:Liquid发现,视觉生成和理解任务可以在统一的“暗号”空间里互相帮助,解决了以前模型中任务互相干扰的问题。
小编认为,Liquid的自回归生成方式让它在生成高分辨率图片(FID5.47,MJHQ-30K)的时候比SD v2.1和SD-XL更厉害,而且在GenAI-Bench测试中也超越了其他的自回归多模态模型,说明它对复杂指令的理解能力很强。
重磅发现:模型越大,性能越好!
Liquid的核心研究发现颠覆了以前的认知。以前大家都觉得,小模型同时训练视觉和语言任务会导致语言能力下降。但是Liquid发现,模型越大,这种问题就越少,甚至还会出现互相促进的效果!
听说这个发现让开发者们炸开了锅。比如,Liquid-7B在视觉生成(VQAscore比Chameleon好)和语言任务(跟LLaMA2差不多)中都表现出色,验证了规模化训练的潜力。小编认为,这个发现为未来超大规模多模态模型的设计提供了重要的指导意义。
性能和开源生态:开发者的新玩具
Liquid的性能确实很给力。小编认为它在关键测试中的表现:
- 视觉生成:在MJHQ-30K测试中,Liquid-7B的FID值为5.47,比SD-XL和Chameleon更好,生成的图片细节和语义一致性都很棒。
- 视觉理解:在GenAI-Bench的复杂视觉-语言推理任务中,Liquid超越了其他自回归模型,接近了扩散模型的性能。
- 语言能力:得益于高质量的混合训练,Liquid在文本任务中保持了与主流大模型(如LLaMA2)相当的水平。
Liquid的开源策略更是放大了它的影响力。字节提供了从0.5B到32B的多种模型规模,开发者只需要基本的transformers库就可以运行推理或评估,不需要复杂的环境。听说已经有开发者开始基于Liquid开发各种创意应用了,比如文本驱动的艺术生成和多模态问答系统。
行业影响:多模态AI要变天?
Liquid的发布让字节跳动在多模态AI领域的地位更加稳固了。小编认为,跟OpenAI的Chameleon(需要从头训练)或者谷歌的Gemini(依赖外部视觉编码器)相比,Liquid用更低的训练成本和更高的灵活性提供了差不多的性能。它的开源模式和低成本API(输入每百万token0.2美元,输出1.1美元)对中小企业和独立开发者来说非常有吸引力。
对于整个行业来说,Liquid的统一生成范式为短视频创作、虚拟助手和教育内容生成等场景开辟了新的可能性。比如,营销团队可以用Liquid快速生成品牌风格的视频素材,教育机构可以创建交互式多模态课程。小编认为,Liquid的开源生态将催生更多基于其架构的定制模型,推动多模态AI的普及。
挑战和未来:路还很长
虽然Liquid表现出色,但小编也注意到用户提到的一些问题。比如,小规模模型的性能折衷还需要优化,复杂场景的生成可能会出现细节失真。小编建议开发者结合高质量数据集和精细的提示词来提升输出效果。此外,模型的数据隐私和伦理使用还需要进一步明确,尤其是在生成敏感内容的时候。
未来,字节跳动计划扩展Liquid的模态支持(比如音频、视频),并探索分布式训练以进一步降低成本。小编认为,随着社区贡献的增加,Liquid可能会在多模态代理和实时交互领域实现更大的突破。
论文地址:https://arxiv.org/pdf/2412.04332