最近,国内人工智能界的“明星选手”Moonshot AI(月之暗面)搞出了大动静,正式开源发布了两款超厉害的视觉语言模型——Kimi - VL和Kimi - VL - Thinking。这俩模型一亮相,就凭借轻量级架构和超强的多模态理解与推理能力,在多个关键基准测试里把包括GPT - 4o在内的一众大型模型都给比下去了,瞬间吸引了整个行业的目光。
小身材大能量,运行超高效
现在的主流大模型,动不动就有几百亿甚至上千亿参数,就像个“大块头”,运行和部署起来特别费劲,对计算资源的要求也高得离谱。可Kimi - VL和Kimi - VL - Thinking不一样,它们采用了MoE(Mixture - of - Experts,混合专家)架构,激活参数也就大约30亿。这就好比一个身材小巧的运动员,跑起来却特别灵活,运行和部署效率超高,对计算资源的要求也低多了。但你别看它俩“身材小”,在多项基准测试里的表现那叫一个惊艳,强大的推理能力展现得淋漓尽致。
多模态智能升级,数学和操作能力超棒
Kimi - VL系列模型在多模态推理和智能体能力方面简直“开挂”了。在考验多模态数学推理能力的MathVision基准测试里,Kimi - VL拿到了36.8%的成绩。要知道,有些参数量比它大十倍的大型模型也就这个水平,这足以证明它的实力。
更牛的是,在评估智能体操作能力的ScreenSpot - Pro任务上,Kimi - VL得分高达34.5%。这意味着它特别擅长理解复杂的用户界面,还能按照要求进行操作。有了这个本事,以后开发更智能的人机交互应用就有盼头啦。
高清视野,处理图像文本超厉害
Kimi - VL系列模型有MoonViT架构的加持,图文识别与理解能力那叫一个强。在OCRBench基准测试里,它拿到了867的高分。这就说明,在处理高分辨率图像和识别复杂文本方面,它有着卓越的性能。像那些有大量图像和文档信息的应用场景,对它来说就是小菜一碟。
超长记忆,长文本处理不在话下
超长上下文理解能力也是Kimi - VL系列模型的一大绝活。它支持高达128K tokens的上下文输入,也就是说,它能同时处理更长的文档、视频等复杂长文本信息,还能进行深入的理解和分析。
在长文档理解测试MMLongBench - Doc里,Kimi - VL取得了35.1%的成绩;在长视频理解测试LongVideoBench上,更是拿到了64.5%的高分。有了这个本事,在文档问答、视频分析等需要处理大量上下文信息的场景里,它就能大显身手了。
开源共享,一起探索多模态智能未来
Moonshot AI说了,这次开源发布Kimi - VL和Kimi - VL - Thinking只是他们迈向通用多模态智能的一小步。他们希望通过开源的方式,吸引更多社区开发者加入进来,一起开发应用,探索Kimi - VL系列模型在文档问答、界面操作、图文理解、视频分析等领域的无限可能。
要是你也想获取Kimi - VL系列模型的相关信息和代码,可以通过以下方式:
1.Kimi-VL官网入口地址
2.Kimi-VL-Thinking官网入口地址
怎么样,是不是对这两款模型充满了期待?那就赶紧关注起来吧!