国产AI放大招！Moonshot AI开源两款视觉语言模型，实力碾压GPT

最近，国内人工智能界的“明星选手”Moonshot AI（月之暗面）搞出了大动静，正式开源发布了两款超厉害的视觉语言模型——Kimi - VL和Kimi - VL - Thinking。这俩模型一亮相，就凭借轻量级架构和超强的多模态理解与推理能力，在多个关键基准测试里把包括GPT - 4o在内的一众大型模型都给比下去了，瞬间吸引了整个行业的目光。

小身材大能量，运行超高效

现在的主流大模型，动不动就有几百亿甚至上千亿参数，就像个“大块头”，运行和部署起来特别费劲，对计算资源的要求也高得离谱。可Kimi - VL和Kimi - VL - Thinking不一样，它们采用了MoE（Mixture - of - Experts，混合专家）架构，激活参数也就大约30亿。这就好比一个身材小巧的运动员，跑起来却特别灵活，运行和部署效率超高，对计算资源的要求也低多了。但你别看它俩“身材小”，在多项基准测试里的表现那叫一个惊艳，强大的推理能力展现得淋漓尽致。

多模态智能升级，数学和操作能力超棒

Kimi - VL系列模型在多模态推理和智能体能力方面简直“开挂”了。在考验多模态数学推理能力的MathVision基准测试里，Kimi - VL拿到了36.8%的成绩。要知道，有些参数量比它大十倍的大型模型也就这个水平，这足以证明它的实力。

更牛的是，在评估智能体操作能力的ScreenSpot - Pro任务上，Kimi - VL得分高达34.5%。这意味着它特别擅长理解复杂的用户界面，还能按照要求进行操作。有了这个本事，以后开发更智能的人机交互应用就有盼头啦。

高清视野，处理图像文本超厉害

Kimi - VL系列模型有MoonViT架构的加持，图文识别与理解能力那叫一个强。在OCRBench基准测试里，它拿到了867的高分。这就说明，在处理高分辨率图像和识别复杂文本方面，它有着卓越的性能。像那些有大量图像和文档信息的应用场景，对它来说就是小菜一碟。

超长记忆，长文本处理不在话下

超长上下文理解能力也是Kimi - VL系列模型的一大绝活。它支持高达128K tokens的上下文输入，也就是说，它能同时处理更长的文档、视频等复杂长文本信息，还能进行深入的理解和分析。

在长文档理解测试MMLongBench - Doc里，Kimi - VL取得了35.1%的成绩；在长视频理解测试LongVideoBench上，更是拿到了64.5%的高分。有了这个本事，在文档问答、视频分析等需要处理大量上下文信息的场景里，它就能大显身手了。

开源共享，一起探索多模态智能未来

Moonshot AI说了，这次开源发布Kimi - VL和Kimi - VL - Thinking只是他们迈向通用多模态智能的一小步。他们希望通过开源的方式，吸引更多社区开发者加入进来，一起开发应用，探索Kimi - VL系列模型在文档问答、界面操作、图文理解、视频分析等领域的无限可能。

要是你也想获取Kimi - VL系列模型的相关信息和代码，可以通过以下方式：

1.Kimi-VL官网入口地址

2.Kimi-VL-Thinking官网入口地址

怎么样，是不是对这两款模型充满了期待？那就赶紧关注起来吧！

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集

国产AI放大招！Moonshot AI开源两款视觉语言模型，实力碾压GPT - 4o

小身材大能量，运行超高效

多模态智能升级，数学和操作能力超棒

高清视野，处理图像文本超厉害

超长记忆，长文本处理不在话下

开源共享，一起探索多模态智能未来