MMaDA
674
0
0
MMaDA是由普林斯顿大学、字节跳动、清华大学及北京大学联合研发的多模态扩散大语言模型,旨在突破传统多模态模型在架构统一性与后训练方法上的局限性。其核心目标是通过统一的扩散架构,实现文本推理、多模态理解与图像生成的跨领域卓越性能。
工具标签:
直达网站
工具介绍

MMaDA是什么?
MMaDA是由普林斯顿大学、字节跳动、清华大学及北京大学联合研发的多模态扩散大语言模型,旨在突破传统多模态模型在架构统一性与后训练方法上的局限性。其核心目标是通过统一的扩散架构,实现文本推理、多模态理解与图像生成的跨领域卓越性能。
核心技术
- 统一扩散架构:MMaDA采用共享概率公式和模态无关设计,消除对特定模态组件的依赖,实现文本、图像等不同类型数据的无缝集成与处理。
- 混合长链式思考(CoT)微调策略:通过设计跨模态的统一CoT格式,强制AI在文本和视觉领域对齐推理过程,提升复杂任务处理能力。
- 统一强化学习算法UniGRPO:专为扩散模型设计的策略梯度算法,通过多样化奖励建模统一推理和生成任务的后训练,确保性能持续提升。
性能表现与行业对比
- 文本推理:在MMLU基准测试中,MMaDA-8B准确率达68.4%,超越LLaMA-3-8B、Qwen2-7B等模型,展现出更强的逻辑推理能力。
- 多模态理解:在POPE、VQAv2等基准测试中,与LLaVA、Qwen-VL等专用模型持平,在复杂跨模态任务中表现优异。
- 文本到图像生成:CLIP Score达32.46,超越SDXL、Janus等模型,尤其在文化知识生成任务(WISE)中准确率提升56%,生成更符合世界知识的图片。

模型架构与训练方法
- 统一Token化策略:将文本和图像转换为统一的离散Token,实现跨模态的无缝处理。
- 三阶段训练流程:
3. 模型优势与应用场景
- 文本推理:在MMLU基准测试中,准确率达到68.4%,超越LLaMA-3-8B、Qwen2-7B等模型,展现出更强的逻辑推理能力。
- 多模态理解:在POPE、VQAv2等基准测试中,与LLaVA、Qwen-VL等专用模型持平,但在复杂场景下表现更为全面。
- 文本到图像生成:在CLIP Score和WISE文化知识生成任务中,表现优于SDXL和Janus,生成更准确、更符合世界知识的图片。
实际应用与扩展能力
- 图像修复与外推:MMaDA天然支持图像修复和外推功能,无需额外微调,可直接应用于视觉问答、图像补全等任务。
- 灵活推理策略:文本生成采用半自回归去噪策略,生成更复杂、更详细的描述;图像生成则采用并行非自回归采样,效率更高。
开源与社区支持
- MMaDA已在GitHub开源,提供文本生成、多模态生成和图像生成的推理和训练代码。
- 发布了MMaDA-8B-Base模型,MMaDA-8B-MixCoT和MMaDA-8B-Max模型也即将上线。
- 社区可通过在线演示或本地部署体验模型功能,参与模型优化与应用开发。
未来发展
MMaDA的诞生标志着多模态AI领域的一次重要突破,展示了扩散模型作为下一代多模态智能基础的巨大潜力。未来,随着模型尺寸的扩大和功能的进一步优化,MMaDA有望在更多领域实现广泛应用,推动AI技术向更智能、更高效的方向发展。
评论
全部评论

暂无评论
热门推荐
相关推荐

Gemma 3
Gemma-3是谷歌最新开源的多模态大模型,主打低成本高性能。该模型共有1B(10亿)、4B(40亿)、12B(120亿)和27B(270亿)四种参数规模,即便最大的27B参数模型,也只需要一张Nvidia H100显卡就能高效推理。相比同类模型,Gemma-3在达到相同效果时,算力需求降低了10倍
OceanGPT沧渊
OceanGPT(沧渊)是面向海洋科学与工程任务的专业领域大语言模型。该模型立足通用人工智能,融合大语言模型、知识图谱、生成式AI、具身智能体等AI新技术,服务于AI海洋科学研究,由海洋精准感知技术全国重点实验室(浙江大学)牵头,联合浙江大学计算机学院、海洋学院及东海实验室等多学科交叉团队研制。
零一万物
零一万物是李开复成立的一家专注于AI 2.0大模型技术研发与应用的创新企业。在AI 2.0时代,大模型成为核心技术,它能够处理海量数据,具备强大的通用性和创造性,可跨领域、跨媒体、跨语言地执行各种任务。零一万物以大模型为基础,致力于打造一个开放、共享、协作的大模型平台。
讯飞星辰
讯飞星辰作为科大讯飞倾力打造的AI大模型定制训练平台,致力于为用户打造独一无二的专属大模型。该平台汇聚了超过20个在行业内广受认可的优质模型,诸如星火大模型、Llama3等,均在其列。更为便捷的是,讯飞星辰支持零代码微调功能,极大地降低了大模型精调的复杂性和门槛。
Thera
Thera是一款基于深度学习的图片超分辨率模型。它能够通过学习低分辨率图像与高分辨率图像之间的映射关系,将模糊或低分辨率的图像转换为清晰、高分辨率的图像,简单理解就是免费提升图片清晰度。与传统的图像放大方法不同,Thera采用了更为先进的算法和模型结构,实现了更高质量的图像重建。
Magi-1
Magi-1是一款由Sand.ai团队研发的自回归视频生成模型。它采用了先进的深度学习技术,通过预测视频块序列(这些视频块是连续帧的固定长度片段)来生成高质量的视频内容。Magi-1不仅支持因果时间建模,还能实现自然的流式生成,为用户提供了极大的创作自由和灵活性。
Amazon Bedrock
Amazon Bedrock是亚马逊云科技推出的全球最大AI模型平台,属于完全托管服务。它就像一个“AI模型超市”,通过单个API,把AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI和亚马逊自家等领先人工智能公司的高性能基础模型汇聚在一起
SmolLM3
SmolLM3是全球知名的大模型开放平台Hugging Face于2025年7月9日发布并开源的小参数模型。它仅有30亿参数,却性能卓越,超越了Llama-3.2-3B和Qwen2.5-3B等同类开源模型。该模型具备128k上下文窗口,可处理英语、法语等6种语言文本,还支持深度思考和非思考双推理模式
0
0






