国产AI新秀Kimi-VL：小身材，大能量！长文档、图像啥都行！-AITOP100,AI资讯

各位aitop100平台的家人们，就在刚刚，中国初创公司Moonshot AI正式推出了一款叫Kimi-VL的开源模型。这模型可不简单，在处理图像、文本和视频这些方面，那表现堪称惊艳，高效得让人忍不住竖起大拇指，一下子就吸引了好多人的目光。

Kimi-VL最牛的地方在哪儿呢？就是它处理长文档、复杂推理和用户界面的能力超厉害。就好比一个超级学霸，不管啥难题到它手里都能轻松搞定。

它采用的是专家混合架构，这架构可聪明了，只有在执行特定任务的时候，才会激活部分模型。别看它只有2.8亿个活跃参数，跟那些动不动就几十亿、上百亿参数的大型模型比起来，参数少得可怜，但它在多个基准测试里的表现，那可一点都不逊色，甚至比很多同类产品效率高多了。

Kimi-VL的最大上下文窗口能达到128,000个标记，这是啥概念呢？就是说它能轻松处理整本书籍或者长视频的文字记录。就好比你有一本厚厚的书，或者一部超长的电影，它都能把里面的内容“吃透”。根据公司报告，在LongVideoBench和MMLongBench - Doc这些测试里，Kimi-VL的成绩一直都很不错，稳稳地拿高分。

在图像处理方面，Kimi-VL也有两把刷子。有些系统处理图像的时候，得把完整的屏幕截图或者复杂图形拆分成一小块一小块的，就像切蛋糕一样，才能进行分析。但Kimi-VL不用这么麻烦，它能直接分析完整的图像。不管是数学图像问题，还是手写笔记，它都能应对自如。有一项测试里，它成功分析了一份手写手稿，不仅识别出了和阿尔伯特・爱因斯坦相关的引用，还解释了这些引用为啥重要，这能力简直绝了！

Kimi-VL还能当软件助手呢！它能解读图形用户界面，还能自动化数字任务。就好比你有个贴心的小秘书，帮你搞定各种数字操作。Moonshot AI说，在测试中，这个模型在浏览器菜单导航或者设置更改这些方面的表现，比很多其他系统都强，连GPT - 4o都被它比下去了。

和其他开源模型比起来，Kimi-VL的效率那是相当高。根据Moonshot AI的数据，在24个基准测试里，它赢了19个。就算它的活跃参数比其他模型少很多，在MMBench - EN和AI2D这些基准测试中，它的得分也和那些更大型的商业模型差不多，甚至还更高。

为啥Kimi-VL能这么厉害呢？Moonshot AI说，这得归功于它的训练方法。除了标准的监督微调，它还用了强化学习。而且还有个专门版的Kimi - VL - Thinking，专门被训练用于更长的推理步骤。就好比给它开了个小灶，让它处理复杂任务（比如数学推理）的时候，表现更出色。

不过呢，Kimi-VL也不是十全十美的。它现在这个规模，在处理一些高度语言密集或者特别小众的任务时，表现还是有点局限。而且在处理非常长的上下文时，也会遇到一些技术难题。但Moonshot AI已经计划好了，要开发更大型的模型版本，增加更多训练数据，还要改善微调技术。他们的目标就是打造一个“强大又资源高效的系统”，不管是科研还是工业这些实际应用场景，都能派上大用场。

今年早些时候，Moonshot AI还发布了Kimi k1.5，这是一款针对复杂推理的多模态模型，公司说它在基准测试里能和GPT - 4o抗衡。Kimi k1.5在kimi.ai网页界面上就能用，要是你想体验一下Kimi-VL，它的演示版本在Hugging Face上能找到。家人们，赶紧去瞅瞅这个厉害的模型吧！

想了解更多AI创作软件工具请关注AI 人工智能网站--AITOP100平台--AI工具集