Meta放大招:WebSSL模型横空出世!
AI圈最近炸开了锅,Meta公司又搞了个大新闻!他们推出了一系列叫做WebSSL的模型,这玩意儿厉害了,不用听你说话,光看图就能get到你的意思!这系列模型规模可不小,参数从3亿到70亿不等,专门用图像数据来训练,目标就是探索无语言监督的视觉自监督学习(SSL)的潜力。
话说回来,之前OpenAI的CLIP模型就很火,在视觉问答(VQA)和文档理解上表现超好。但CLIP得靠语言来学习,数据集不好搞,规模也受限制。Meta这次就想试试,不用语言行不行?于是,他们拿出了自家的MetaCLIP数据集(MC-2B),里面有20亿张图片,完全不加语言指导,让AI自己琢磨。这样就能更纯粹地评估纯视觉自监督学习的效果,不受数据和模型大小的限制。
WebSSL怎么做到的?
WebSSL模型用了两种主流的视觉自监督学习方法:联合嵌入学习(DINOv2)和掩码建模(MAE)。所有模型都用224x224分辨率的图像训练,而且还把视觉编码器冻结了,保证结果的差异只来自于预训练策略。这系列模型在五个不同的容量层级上(ViT-1B 到 ViT-7B)进行训练,然后用Cambrian-1基准测试来评估,覆盖了通用视觉理解、知识推理、OCR(光学字符识别)和图表解读等16个VQA任务。
效果怎么样?超出想象!
实验结果显示,WebSSL模型参数越大,在VQA任务中的表现就越好,尤其是在OCR和图表任务中,甚至超过了CLIP!而且,通过高分辨率(518px)微调,WebSSL在文档任务中的表现也大幅提升,缩小了与一些高分辨率模型的差距。
更神奇的是...
更让人惊讶的是,WebSSL在没有语言监督的情况下,竟然能和一些预训练语言模型(比如LLaMA-3)对齐!这意味着大规模视觉模型能够自己学到与文本语义相关的特征,这对我们理解视觉和语言之间的关系提供了新的思路。
未来可期!
总之小编认为,Meta的WebSSL模型不仅在传统的基准测试中表现出色,还为未来的无语言学习研究开辟了新的方向。以后AI看图说话,可能真的不需要“说话”了!