谷歌放大招,端侧多模态大模型来袭
就在本周五凌晨,谷歌正式发布并开源了一款全新的端侧多模态大模型——Gemma3n。这一突破性的产品,让手机、平板、笔记本这些端侧设备也能拥有以前只能在云端体验到的强大功能,简直太让人惊喜了!
核心特性:
两个版本,内存占用超低
Gemma3n提供了E2B和E4B两个版本。虽然E2B原始参数量是5B,E4B原始参数量是8B,但通过架构创新,它们的内存占用大幅降低。E2B仅需2GB内存就能运行,相当于传统2B模型的内存占用;E4B也只要3GB内存,和传统4B模型差不多。
多模态输入,多语言支持
这个模型原生支持图像、音频、视频和文本的多模态输入处理,功能十分强大。而且,它能支持140种文本语言和35种语言的多模态理解,不管你是用哪种语言,它都能轻松应对。
E4B版本,性能卓越
值得一提的是,E4B版本在LMArena评测中得分超过了1300,这可是首个达到此基准的100亿参数以下模型。它在多语言、数学、编码和推理能力方面都有了显著提升,实力不容小觑。
技术创新:
MatFormer架构:灵活多变
Gemma3n采用了全新的Matryoshka Transformer架构,就像俄罗斯套娃一样,一个模型里包含了多种尺寸。在训练E4B模型的时候,还能同步优化E2B子模型,给开发者提供了灵活的性能选择。通过Mix - n - Match技术,用户还能在E2B和E4B之间创建自定义尺寸的模型,真是太方便了。
每层嵌入(PLE)技术:提高内存效率
这项创新技术允许大部分参数在CPU上加载计算,只有核心Transformer权重需要存储在加速器内存中。这样一来,内存效率大幅提高,而且还不影响模型质量,简直一举两得。
KV Cache共享:优化长内容处理
针对长内容处理,Gemma3n采用了键值缓存共享技术。和Gemma34B相比,它的预填充性能提升了两倍,大大加快了长序列处理的首个token生成时间,处理长内容更高效。
先进编码器:音频视觉双提升
在音频方面,Gemma3n采用了基于通用语音模型(USM)的编码器,支持自动语音识别和语音翻译功能,还能处理长达30秒的音频片段。视觉方面,它配备了MobileNet - V5 - 300M编码器,支持多种输入分辨率,在Google Pixel上能达到每秒60帧的处理速度,视觉处理能力也很强。
实用功能与应用场景:语音翻译超厉害
Gemma3n在语音翻译方面表现十分突出,尤其是英语与西班牙语、法语、意大利语、葡萄牙语之间的转换,准确又高效。而且,它的视觉编码器MobileNet - V5通过先进蒸馏技术,相比基线模型实现了13倍加速,参数减少了46%,内存占用降低了4倍,同时还能保持更高的准确率,真是太实用了。
开源生态与发展前景:开发者生态强劲
谷歌已经在Hugging Face平台开源了Gemma3n的模型和权重,还提供了详细的文档和开发指南。自去年首个Gemma模型发布以来,该系列累计下载量已经超过了1.6亿次,可见它的开发者生态十分强劲。
Gemma3n的发布,让端侧AI进入了一个新的发展阶段。它把云端级别的多模态能力下沉到了用户设备上,为移动应用、智能硬件等领域带来了更多的可能性。相信在未来,它会有更广泛的应用。
模型地址:https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4
详细文档:https://ai.google.dev/gemma/docs/gemma-3n
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: