Meta搞了个大新闻！纯视觉AI模型WebSSL，不用说话也能看懂图？-AITOP100,AI资讯

Meta放大招：WebSSL模型横空出世！

AI圈最近炸开了锅，Meta公司又搞了个大新闻！他们推出了一系列叫做WebSSL的模型，这玩意儿厉害了，不用听你说话，光看图就能get到你的意思！这系列模型规模可不小，参数从3亿到70亿不等，专门用图像数据来训练，目标就是探索无语言监督的视觉自监督学习(SSL)的潜力。

话说回来，之前OpenAI的CLIP模型就很火，在视觉问答(VQA)和文档理解上表现超好。但CLIP得靠语言来学习，数据集不好搞，规模也受限制。Meta这次就想试试，不用语言行不行？于是，他们拿出了自家的MetaCLIP数据集(MC-2B)，里面有20亿张图片，完全不加语言指导，让AI自己琢磨。这样就能更纯粹地评估纯视觉自监督学习的效果，不受数据和模型大小的限制。

WebSSL怎么做到的？

WebSSL模型用了两种主流的视觉自监督学习方法：联合嵌入学习(DINOv2)和掩码建模(MAE)。所有模型都用224x224分辨率的图像训练，而且还把视觉编码器冻结了，保证结果的差异只来自于预训练策略。这系列模型在五个不同的容量层级上(ViT-1B 到 ViT-7B)进行训练，然后用Cambrian-1基准测试来评估，覆盖了通用视觉理解、知识推理、OCR(光学字符识别)和图表解读等16个VQA任务。