Gemma 3
3207
1
1
Gemma-3是谷歌最新开源的多模态大模型,主打低成本高性能。该模型共有1B(10亿)、4B(40亿)、12B(120亿)和27B(270亿)四种参数规模,即便最大的27B参数模型,也只需要一张Nvidia H100显卡就能高效推理。相比同类模型,Gemma-3在达到相同效果时,算力需求降低了10倍
工具标签:
直达网站
工具介绍

一、Gemma-3介绍
Gemma-3是谷歌最新开源的多模态大模型,主打低成本高性能。该模型共有1B(10亿)、4B(40亿)、12B(120亿)和27B(270亿)四种参数规模,即便最大的27B参数模型,也只需要一张Nvidia H100显卡就能高效推理。相比同类模型,Gemma-3在达到相同效果时,算力需求降低了10倍,是目前最强的小参数模型之一。
二、架构与技术亮点
- 通用解码器Transformer架构:Gemma-3采用了与前两代相同的通用解码器Transformer架构,但进行了众多创新和优化。
- 局部和全局自注意力层交错架构:为了应对长上下文带来的内存爆炸难题,Gemma-3采用了局部和全局自注意力层交错的架构。每5个局部层之间插入1个全局层,局部层的跨度仅为1024个token。这种设计降低了内存占用,提升了模型处理长上下文的能力。
- 扩展上下文长度:Gemma-3将上下文长度扩展到了128K token(10亿参数模型为32K),提高了模型处理复杂任务的能力。
- 提高全局自注意力层的RoPE基础频率:从10k提升到1M,而局部层频率保持在10k,使模型在长上下文场景下能够更好地捕捉信息,提升性能。
- 多模态能力:Gemma-3能够同时处理文本和图像,集成了定制版的SigLIP视觉编码器。这是一个基于VisionTransformer的编码器,通过CLIP损失的变体进行训练,提升了模型的多模态处理能力。
- 图像嵌入压缩技术:为了降低图像处理的推理成本,Gemma-3采用了创新的图像嵌入压缩技术。将视觉嵌入压缩为固定大小的256个向量,从而在不损失关键信息的前提下,显著减少了计算资源的消耗。
- Pan&Scan方法:允许模型灵活处理不同分辨率和宽高比的图像。通过将图像分割成多个固定大小的区域,并将这些区域调整到统一的分辨率后输入编码器,避免了因图像尺寸不一致而导致的信息丢失或变形问题。
三、高效训练过程
- 增加token预算:为适应图像和文本混合数据的训练需求,Gemma-3使用了比Gemma 2更大的token预算。27B参数的模型训练使用14T token,12B参数模型使用12T,4B参数模型使用4T,1B参数模型使用2T。
- 提升语言覆盖范围:增加了多语言数据,包括单语和并行数据,并借鉴特定策略处理语言表示不平衡的问题,以此提升模型的语言覆盖范围和多语言处理能力。Gemma-3支持140种语言,其中35种语言开箱即用。
- 使用SentencePiece分词器:Gemma-3使用与Gemini 2.0相同的SentencePiece分词器,具备分割数字、保留空格和字节级编码的特性。生成的词汇表包含262k个条目,使模型在处理非英语语言时更加平衡。
- 知识蒸馏技术:在训练优化上,Gemma-3运用知识蒸馏技术。每个token采样256个logits,按照教师概率进行加权,学生模型通过交叉熵损失来学习教师模型在这些样本中的分布。从而提升学生模型的性能。
- 后训练阶段:聚焦于提升模型的特定能力并整合新特性。采用了改进版的知识蒸馏技术,从大型指令微调教师模型中获取知识,同时结合基于改进版BOND、WARM和WARP的强化学习微调阶段。通过多种奖励函数来优化模型,旨在提升模型的帮助性、数学能力、编码能力、推理能力、指令遵循能力和多语言能力,同时最小化模型产生有害输出的可能性。
四、性能测试
谷歌在MGSM、Global-MMLU-Lite、WMT24++、RULER、MRCR等众多主流平台对Gemma-3进行了评估。结果显示,Gemma-3在多模态任务中表现出色,例如在DocVQA、InfoVQA和TextVQA等任务中,其性能显著优于前代模型。

在长文本处理方面,Gemma-3的27B模型在RULER128K上达到了66.0%的准确率,展现了强大的长文本处理能力。
在多语言支持上,Gemma-3在MGSM和Global-MMLU-Lite等任务中也取得了优异成绩。在对话能力评估中,Gemma-3的27B指令调优版本在Chatbot Arena中的Elo分数为1338,排名进入前10,接近DeepSeek-R1等大型模型。
五、开源与应用
Gemma-3已经开源,开发者可以通过指定的开源地址获取模型和相关资源。该模型专为开发者设计,旨在支持他们构建能够在多种设备上运行的人工智能应用,无论是手机还是工作站,均可实现无缝运行。Gemma-3的推出,标志着谷歌在AI技术领域又迈出了重要一步,将进一步推动低成本、高性能AI模型的发展和应用。
概括起来,Gemma-3是一款具有强大性能和广泛应用前景的多模态大模型,值得开发者和AI爱好者关注和探索。
评论
全部评论

暂无评论
热门推荐
相关推荐

大模型实验室Lab4AI
大模型实验室Lab4AI是提供高性能GPU场景的实操平台和内容社区,致力于为高校科研人员、AI开发者和学习者提供高性能算力支持与全链条工具服务,打造“从论文到创新,从课程到实践”的闭环生态。平台聚焦科研探索与技能提升两大核心场景,通过集成先进AI能力、云端算力资源和实操环境,助力用户高效完成学术研究
零一万物
零一万物是李开复成立的一家专注于AI 2.0大模型技术研发与应用的创新企业。在AI 2.0时代,大模型成为核心技术,它能够处理海量数据,具备强大的通用性和创造性,可跨领域、跨媒体、跨语言地执行各种任务。零一万物以大模型为基础,致力于打造一个开放、共享、协作的大模型平台。
EVI3
EVI3是Hume公司在2025年5月29日正式发布全新语音语言模型,这一创新标志着通用语音智能领域进入的发展阶段。作为全球首个突破传统文本到语音(TTS)技术框架的语音到语音(V2S)模型,EVI3不仅重新定义了语音交互的边界,更通过多模态情感计算能力为AI语音技术树立了新的技术标杆。
阶跃星辰
阶跃星辰开放平台(Stepfun)是由上海阶跃星辰智能科技有限公司于2023年推出的企业级AI大模型服务平台。作为国内领先的人工智能企业,阶跃星辰致力于构建从语言理解到多模态感知的完整大模型生态,为开发者和企业提供强大的AI基础设施。
K2 Think
K2 Think是阿联酋穆罕默德·本·扎耶德人工智能大学与科技集团G42联合推出的开源大语言模型(LLM),以320亿参数的紧凑架构实现性能跃迁,在数学、科学等复杂推理任务中超越参数规模大20倍的旗舰模型,重新定义了高效推理的技术边界,自称为全球最快的开源AI模型和最先进的开源AI推理系统
Audio2Face
Audio2Face是英伟达推出的一款生成式AI面部动画模型,该模型通过深度学习和机器学习算法,实现了从音频输入到面部动画输出的实时转换。近日,英伟达宣布开源了这一模型,不仅提供了核心算法,还附带了软件开发工具包(SDK)和完整的训练框架,为游戏和3D应用领域的智能虚拟角色开发提供了强有力的支持。
Flex.2-preview
Flex.2-preview是由Ostris团队发布的一款基于8亿参数的文本到图像扩散模型,专为集成到ComfyUI工作流设计。该模型在Hugging Face上开源,采用Apache2.0许可证,凭借其强大的控制能力与高效生成特性,迅速成为AI艺术创作社区的焦点。
Quasar Alpha
Quasar Alpha是一款近期神秘亮相的全新AI模型,由一家未具名的模型实验室推出,被称为其首款“隐秘”模型,是即将发布的长上下文基础模型的预发布版本。它凭借超长的上下文处理能力、优化的编码能力,以及免费开放策略,迅速成为业界热议焦点,为AI技术发展增添了新期待。
1
1






