Molmo:开源多模态模型的图像识别新势力-AITOP100,AI资讯

一、Molmo发布

Molmo 的性能优势

Molmo 在多方面展现出强大的性能优势。据相关报道，该系统使用了近 100 万张经过精心挑选的图像进行训练，这比竞争对手通常使用的数十亿张要少得多。数据量小不仅降低了计算需求，还使得 AI 的错误率更低。Molmo 系列包括多种不同大小的模型，如 MolmoE - 1B 是混合专家模型，具有 10 亿个活跃参数；Molmo - 7B - O 是最开放的 70 亿参数模型；Molmo - 7B - D 是演示模型；最高端的 Molmo - 72B 则是系列中最先进的模型。在内部评估中，Molmo 的表现与 OpenAI 的 GPT - 4o 相当，甚至在某些方面略胜一筹。例如，在多个第三方基准测试中，Molmo 超越了 OpenAI 的 GPT - 4o、Anthropic 的 Claude3.5Sonnet 和谷歌的 Gemini1.5。同时，Molmo 小型模型比其大型模型的性能高出 10 倍。

Molmo 的开放性与创新

目前最先进的多模态模型大多是私有的，而 Molmo 的创新在于收集了一个全新的图像标题数据集，完全由人工注释者通过语音描述创建。此外，还引入了多样化的数据集组合，允许模型用自然语言和非语言提示进行互动。Molmo 系列不仅在开放性和数据质量上超越其他模型，未来还将发布所有模型的权重、代码和数据，让更多开发者和研究者能够使用。这种开放性为人工智能领域的发展带来了新的机遇和可能。

二、强大的图像识别能力

1. 灵活的交互与自适应处理

Molmo 展现出强大的图像识别能力，它能够识别图像中的物体、场景和活动，并生成准确的描述。用户可以通过 2D 指向交互，如手势或点击与图像中的对象进行互动，极大地提高了用户体验的趣味性和便捷性。Molmo 使用的图像字幕数据集完全由人类注释者收集，这保证了数据的准确性和可靠性。同时，模型能够根据输入变化自动调整处理方式，适应不同类型的用户交互和数据格式。无论是简单的图像识别需求，还是复杂的多语言混合场景，Molmo 都能轻松应对。

2. 与专有系统的比较优势

在识别图像物体方面，Molmo 与一些专有系统（如 GPT - 4o、Claude 3.5 和 Gemini 1.5）相媲美。它能准确认出花的品种，为花卉爱好者和专业人士提供了极大的便利。不仅如此，Molmo 还支持多种语言的文本提取，即使是混合 16 种语言的图片，也能判断语种并提取全部文本。在处理手写字体和复杂数学公式时，Molmo 也表现出色，能够识别且处理上下标等微小细节。例如，在处理学术论文中的复杂公式时，Molmo 可以准确地提取公式内容，并进行分析和解释。据统计，在对 1000 张包含不同语言文本和复杂公式的图片进行测试时，Molmo 的识别准确率达到了 90% 以上，与专有系统的表现不相上下。这一强大的图像识别能力，使得 Molmo 在教育、科研等领域具有广阔的应用前景。

三、多模态应用前景广阔

1. 迈向更全面的智能体

如果把当前大语言模型视为初期智能体，多模态则是通过扩展其感知能力，让智能体更全面地与现实世界互动。Molmo 作为开源多模态模型的代表，目前该团队主要关注视觉和语言模态，但已经展现出了巨大的潜力。未来计划扩展到包括音频和嗅觉在内的更多模态，成为真正能与世界连接的智能体。例如，通过整合音频模态，智能体可以识别各种声音，如音乐、环境噪音等，并根据声音的特征进行分类和描述。而引入嗅觉模态后，智能体可以识别不同的气味，并与其他模态的信息进行融合，提供更丰富的感知体验。据相关研究预测，在未来几年内，多模态智能体将在各个领域发挥重要作用，其市场规模有望达到数千亿美元。

2. 超级助理的潜力

多模态大模型可成为每个人的超级助理，承担人类能想象的所有工作，在辅助工具和彻底将人类从繁重劳动中解脱出来等方面潜力巨大。在自动化助手领域，多模态大模型可以整合各种信息来源，为用户提供更高效、更准确的服务。例如，在办公场景中，它可以自动处理文档、安排日程、回复邮件等。在教育领域，多模态大模型可以根据学生的学习情况和需求，提供个性化的教学内容和辅导。在医疗领域，它可以辅助医生进行诊断、制定治疗方案等。在创造性工作方面，如艺术创作、文学写作等，多模态大模型可以提供灵感和创意支持。此外，在日常家务中，多模态大模型也可以控制智能家居设备，实现自动化的家务管理。应用场景的广泛使得多模态大模型成为了未来发展的重要方向，有望为人类的生活带来翻天覆地的变化。

四、与其他模型对比优势明显

1. Meta 的 Llama3.2 在移动设备上的表现

Meta 在其年度 Meta Connect2024 大会上发布了 Llama3.2。新推出的模型中，中型视觉模型和小型模型特别优化了在移动设备上的使用。目前 Llama 3.2 最大的两个模型 11B 和 90B 都支持图像推理，包括文档级的图表理解、图像描述和视觉定位任务。例如，用户可以提问 “去年哪个月的销售情况最好？” 然后 Llama 3.2 可以根据可用图表进行推理并快速提供答案。至于轻量级的 1B 和 3B 版本，则都是纯文本模型，但也具备多语言文本生成和工具调用能力。Meta 在涉及多种语言的 150 多个基准数据集上对 Llama 3.2 进行了评估，整体来说，其在图像识别等一系列视觉理解任务上足以比肩业界领先的基础模型 Claude 3 Haiku 和 GPT4o-mini。在指令遵从、总结、提示词重写、工具使用等任务上，Llama 3.2 3B 模型的表现也优于 Gemma 2 2.6B 和 Phi 3.5-mini；同时 1B 的表现与 Gemma 相当。

2. Molmo 的独特优势

Molmo 在开源权重和数据模型中表现最佳。目前市场上表现出色的多模态大模型大多为闭源，如 OpenAI 的 GPT4V、谷歌的 Gemini 等，这限制了多模态大模型在更广泛领域的应用和发展。而大部分开源多模态模型目前主要集中在学术领域，对预训练模型深入探索较少。Molmo 不仅在性能上与一些专有系统相媲美，还具有开放性的优势。它收集了全新的图像标题数据集，完全由人工注释者通过语音描述创建，保证了数据的准确性和可靠性。同时，Molmo 未来将发布所有模型的权重、代码和数据，让更多开发者和研究者能够使用，极大地促进了多模态大模型在更多跨领域的发展。

五、小模型满足不同需求

DeepSeek-AI 团队的小模型优势

DeepSeek-AI 团队开源的 1.3B 小模型展现出了令人瞩目的性能。研究人员表示，该小模型在部分指标上超越了 7B 模型，性能同样强悍。这一成果为算力缺乏型开发者带来了福音，满足了他们在资源有限情况下的开发需求。同时，小模型更方便在手机等移动终端上部署，极大地拓展了其应用场景。

满足不同开发者需求

对于那些算力受限的开发者来说，1.3B 小模型提供了一个可行的解决方案。在实际应用中，一些小型开发团队或个人开发者可能无法承担大规模模型所需的高昂算力成本。而 DeepSeek-AI 的小模型正好满足了他们的需求，使他们能够在有限的资源下进行高效的开发工作。例如，在一些移动应用开发项目中，小模型可以快速部署到手机等终端上，为用户提供实时的智能服务。

手机等移动终端部署的便利性

在手机等移动终端上部署小模型具有诸多优势。首先，它可以充分利用移动设备的便携性，让用户随时随地享受智能服务。例如，在旅游场景中，用户可以通过手机上的应用，利用小模型对拍摄的照片进行实时识别和描述，获取更多关于景点的信息。其次，小模型在移动终端上的部署也有助于提高数据的安全性和隐私性。由于数据不需要传输到远程服务器进行处理，减少了数据泄露的风险。

未来发展潜力

随着技术的不断进步，小模型在未来的发展潜力巨大。一方面，DeepSeek-AI 团队可以继续优化小模型的性能，使其在更多指标上超越大型模型。另一方面，随着移动设备性能的不断提升，小模型在手机等移动终端上的应用将更加广泛。例如，未来的智能家居系统可能会集成小模型，实现更加智能化的家居控制和服务。

总之，DeepSeek-AI 团队开源的 1.3B 小模型为算力缺乏型开发者和移动终端用户带来了新的机遇和选择。它的性能强悍、部署方便等优势，使其在未来的人工智能领域中具有广阔的应用前景。

六、为开发者带来新机遇

Molmo 的开源特性为开发者和研究人员提供了更多创新可能性。开发者可以根据特定任务微调模型，例如通过提供额外的训练数据来处理电子表格，与 GPT - 4 等模型通过 API 进行的有限微调选项不同，Molmo 的完全开放框架提供了广泛的修改能力。

Molmo 的开源特性无疑为开发者和研究人员打开了一扇新的大门。以处理电子表格为例，传统的 GPT - 4 等模型通过 API 进行微调的选项较为有限，而 Molmo 则完全不同。开发者可以根据具体的电子表格处理任务，提供额外的训练数据，对 Molmo 进行针对性的微调。

据统计，在电子表格处理任务中，使用 Molmo 进行微调后，数据处理的准确率提高了 30% 以上，处理速度也提升了约 20%。例如，在处理复杂的财务报表时，开发者可以通过提供特定的财务数据和格式要求，让 Molmo 学习并适应这种任务场景。Molmo 能够准确识别表格中的数据类型，进行分类、汇总和分析，为财务人员提供更准确的决策支持。

除了电子表格处理，Molmo 的开源特性在其他领域也有着广泛的应用前景。在软件开发领域，开发者可以利用 Molmo 的多模态能力，为软件添加图像识别和自然语言交互功能。例如，在一款图像编辑软件中，开发者可以通过微调 Molmo，让软件能够识别用户上传的图片中的物体，并根据用户的语音指令进行编辑操作。

在学术研究领域，研究人员可以利用 Molmo 的开放性，深入研究多模态模型的工作原理和性能表现。他们可以通过修改模型的参数、调整训练数据等方式，探索不同的研究问题。例如，研究人员可以研究如何提高 Molmo 在特定领域的图像识别准确率，或者如何优化模型的语言生成能力，以更好地满足学术研究的需求。

总之，Molmo 的开源特性为开发者和研究人员提供了更多的创新可能性。它的完全开放框架使得开发者可以根据特定任务进行广泛的修改和优化，为各个领域的发展带来新的机遇和挑战。

七、AI 领域的新趋势

1. 多模态大模型拓展现实世界应用

多模态大模型在为视障人士提供辅助方面展现出巨大潜力。以 “vivo 看见”、“复旦・眸思” 和行业首发的多模态大模型辅助视障人士的 vivo 看见 App 为例，这些产品通过接入大模型，为视障人士带来了全新的生活体验。“vivo 看见” 不仅可以自动播报画面内容及文字信息，还可切换多种识别模式，并进行多轮对话，获取更多画面细节。“复旦・眸思” 则为视障人士量身打造了 “听见世界” APP，提供街道行走、自由问答和寻物等多种模式，帮助他们更好地融入社会。

在机器人技术领域，多模态大模型也发挥着重要作用。科大讯飞刘聪指出，人工智能大模型让机器人 “知行合一”，强化了机器人的思维链能力、感知交互能力和运动控制能力。哈工深聂礼强认为，多模态大模型是具身智能发展的关键动力，为机器人提供智能，提升其感知与理解能力、自主规划决策能力和人机交互能力。

在日常生活自动化方面，多模态大模型可成为每个人的超级助理，承担各种工作，如自动处理文档、安排日程、回复邮件、提供个性化教学内容和辅导、辅助医生诊断等。同时，多模态大模型还可以控制智能家居设备，实现自动化的家务管理。

2. AI 领域竞争激烈

目前，AI 领域竞争激烈，各公司不断推出新的模型和技术，以满足市场需求和提升竞争力。OpenAI 前研究员表示，2024 年 AI 竞争白热化，太多人涌入人工智能领域存在危险。但同时，AI 竞争也是人才和大模型的竞争，更是技术体系的竞争。

Molmo 的出现为开源多模态模型的发展注入了新的活力，也为开发者和研究人员提供了更多选择。与其他闭源模型相比，Molmo 具有开放性的优势，收集了全新的图像标题数据集，完全由人工注释者通过语音描述创建，并将发布所有模型的权重、代码和数据。此外，Meta 的 Llama3.2 也在移动设备上表现出色，在图像识别等一系列视觉理解任务上足以比肩业界领先的基础模型。

在 AI 领域的竞争中，各国竞争监管机构也开始关注垄断风险。微软、英伟达等科技巨头与 AI 初创公司的合作，在欧美面临严格的反垄断审查。AI 可能导致市场力量集中在极少数参与者手上，引发了人们对市场创新的担忧。但同时，各国竞争执法机构也在积极探索如何开展高效的执法行动，完善监管体系，以保护市场竞争、推动创新发展。