重磅！谷歌的端侧多模态大模型Gemma3n开源啦，手机秒变云端AI“小能手”-AITOP100,AI资讯

谷歌放大招，端侧多模态大模型来袭

就在本周五凌晨，谷歌正式发布并开源了一款全新的端侧多模态大模型——Gemma3n。这一突破性的产品，让手机、平板、笔记本这些端侧设备也能拥有以前只能在云端体验到的强大功能，简直太让人惊喜了！

Gemma3n

核心特性：

两个版本，内存占用超低

Gemma3n提供了E2B和E4B两个版本。虽然E2B原始参数量是5B，E4B原始参数量是8B，但通过架构创新，它们的内存占用大幅降低。E2B仅需2GB内存就能运行，相当于传统2B模型的内存占用；E4B也只要3GB内存，和传统4B模型差不多。

多模态输入，多语言支持

这个模型原生支持图像、音频、视频和文本的多模态输入处理，功能十分强大。而且，它能支持140种文本语言和35种语言的多模态理解，不管你是用哪种语言，它都能轻松应对。

E4B版本，性能卓越

值得一提的是，E4B版本在LMArena评测中得分超过了1300，这可是首个达到此基准的100亿参数以下模型。它在多语言、数学、编码和推理能力方面都有了显著提升，实力不容小觑。

技术创新：

MatFormer架构：灵活多变

Gemma3n采用了全新的Matryoshka Transformer架构，就像俄罗斯套娃一样，一个模型里包含了多种尺寸。在训练E4B模型的时候，还能同步优化E2B子模型，给开发者提供了灵活的性能选择。通过Mix - n - Match技术，用户还能在E2B和E4B之间创建自定义尺寸的模型，真是太方便了。

每层嵌入（PLE）技术：提高内存效率

这项创新技术允许大部分参数在CPU上加载计算，只有核心Transformer权重需要存储在加速器内存中。这样一来，内存效率大幅提高，而且还不影响模型质量，简直一举两得。

KV Cache共享：优化长内容处理

针对长内容处理，Gemma3n采用了键值缓存共享技术。和Gemma34B相比，它的预填充性能提升了两倍，大大加快了长序列处理的首个token生成时间，处理长内容更高效。

先进编码器：音频视觉双提升

在音频方面，Gemma3n采用了基于通用语音模型（USM）的编码器，支持自动语音识别和语音翻译功能，还能处理长达30秒的音频片段。视觉方面，它配备了MobileNet - V5 - 300M编码器，支持多种输入分辨率，在Google Pixel上能达到每秒60帧的处理速度，视觉处理能力也很强。

Gemma3n

实用功能与应用场景：语音翻译超厉害

Gemma3n在语音翻译方面表现十分突出，尤其是英语与西班牙语、法语、意大利语、葡萄牙语之间的转换，准确又高效。而且，它的视觉编码器MobileNet - V5通过先进蒸馏技术，相比基线模型实现了13倍加速，参数减少了46%，内存占用降低了4倍，同时还能保持更高的准确率，真是太实用了。

开源生态与发展前景：开发者生态强劲

谷歌已经在 Hugging Face平台开源了Gemma3n的模型和权重，还提供了详细的文档和开发指南。自去年首个Gemma模型发布以来，该系列累计下载量已经超过了1.6亿次，可见它的开发者生态十分强劲。

Gemma3n的发布，让端侧AI进入了一个新的发展阶段。它把云端级别的多模态能力下沉到了用户设备上，为移动应用、智能硬件等领域带来了更多的可能性。相信在未来，它会有更广泛的应用。

模型地址：https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4

详细文档：https://ai.google.dev/gemma/docs/gemma-3n

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：

AITOP100平台大赛社群二维码