各位aitop100平台的家人们,就在刚刚,中国初创公司Moonshot AI正式推出了一款叫Kimi-VL的开源模型。这模型可不简单,在处理图像、文本和视频这些方面,那表现堪称惊艳,高效得让人忍不住竖起大拇指,一下子就吸引了好多人的目光。
Kimi-VL最牛的地方在哪儿呢?就是它处理长文档、复杂推理和用户界面的能力超厉害。就好比一个超级学霸,不管啥难题到它手里都能轻松搞定。
它采用的是专家混合架构,这架构可聪明了,只有在执行特定任务的时候,才会激活部分模型。别看它只有2.8亿个活跃参数,跟那些动不动就几十亿、上百亿参数的大型模型比起来,参数少得可怜,但它在多个基准测试里的表现,那可一点都不逊色,甚至比很多同类产品效率高多了。
Kimi-VL的最大上下文窗口能达到128,000个标记,这是啥概念呢?就是说它能轻松处理整本书籍或者长视频的文字记录。就好比你有一本厚厚的书,或者一部超长的电影,它都能把里面的内容“吃透”。根据公司报告,在LongVideoBench和MMLongBench - Doc这些测试里,Kimi-VL的成绩一直都很不错,稳稳地拿高分。
在图像处理方面,Kimi-VL也有两把刷子。有些系统处理图像的时候,得把完整的屏幕截图或者复杂图形拆分成一小块一小块的,就像切蛋糕一样,才能进行分析。但Kimi-VL不用这么麻烦,它能直接分析完整的图像。不管是数学图像问题,还是手写笔记,它都能应对自如。有一项测试里,它成功分析了一份手写手稿,不仅识别出了和阿尔伯特・爱因斯坦相关的引用,还解释了这些引用为啥重要,这能力简直绝了!
Kimi-VL还能当软件助手呢!它能解读图形用户界面,还能自动化数字任务。就好比你有个贴心的小秘书,帮你搞定各种数字操作。Moonshot AI说,在测试中,这个模型在浏览器菜单导航或者设置更改这些方面的表现,比很多其他系统都强,连GPT - 4o都被它比下去了。
和其他开源模型比起来,Kimi-VL的效率那是相当高。根据Moonshot AI的数据,在24个基准测试里,它赢了19个。就算它的活跃参数比其他模型少很多,在MMBench - EN和AI2D这些基准测试中,它的得分也和那些更大型的商业模型差不多,甚至还更高。
为啥Kimi-VL能这么厉害呢?Moonshot AI说,这得归功于它的训练方法。除了标准的监督微调,它还用了强化学习。而且还有个专门版的Kimi - VL - Thinking,专门被训练用于更长的推理步骤。就好比给它开了个小灶,让它处理复杂任务(比如数学推理)的时候,表现更出色。
不过呢,Kimi-VL也不是十全十美的。它现在这个规模,在处理一些高度语言密集或者特别小众的任务时,表现还是有点局限。而且在处理非常长的上下文时,也会遇到一些技术难题。但Moonshot AI已经计划好了,要开发更大型的模型版本,增加更多训练数据,还要改善微调技术。他们的目标就是打造一个“强大又资源高效的系统”,不管是科研还是工业这些实际应用场景,都能派上大用场。
今年早些时候,Moonshot AI还发布了Kimi k1.5,这是一款针对复杂推理的多模态模型,公司说它在基准测试里能和GPT - 4o抗衡。Kimi k1.5在kimi.ai网页界面上就能用,要是你想体验一下Kimi-VL,它的演示版本在Hugging Face上能找到。家人们,赶紧去瞅瞅这个厉害的模型吧!