月之暗面MoonShot AI

736

0

0

上周最热排名:30
相关资讯文章:1

工具描述

杨植麟在今年3月1日成立的通用人工智能(AGI)公司“月之暗面”(英文名MoonShot AI),发布了其千亿参数级大模型moonshot,以及搭载该模型的智能助手Kimi Chat。

工具介绍

月之暗面将长文本技术称之为大模型“登月计划”的第一步。

  • 支持更长的上下文意味着大模型拥有更大的“内存”,使大模型的应用更加深入和广泛。比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等等。
  • 在推理层,Transformer模型中自注意力机制(Self Attention)的计算量会随着上下文长度的增加呈平方级增长,比如上下文增加32倍时,计算量实际会增长1000倍。同时,超长上下文也将带来显存与带宽压力。

对于长文本技术的开发,市场上出现了不同的技术路线。

但在杨植麟看来,这些路线几乎都是在牺牲一部分性能前提下的“捷径”。

杨植麟将其总结为三类:

“金鱼”模型,容易“健忘”。

通过滑动窗口等方式主动抛弃上文,只保留对最新输入的注意力机制。模型无法对全文进行完整理解,无法处理跨文档的比较和长文本的综合理解。例如,无法从一篇10万字的用户访谈录音转写中提取最有价值的10个观点。

“蜜蜂”模型,只关注局部,忽略整体。

通过对上下文的降采样或者RAG(检索增强的生成),只保留对部分输入的注意力机制。模型同样无法对全文进行完整理解。例如,无法从50个简历中对候选人的画像进行归纳和总结。

“蝌蚪”模型,模型能力尚未发育完整。

  • 通过减少参数量(例如减少到百亿参数)来提升上下文长度,这种方法会降低模型本身的能力,虽然能支持更长上下文,但是大量任务无法胜任。
  • 杨植麟认为,简单的捷径无法达到理想的产品化效果。因此,月之暗面的技术路线,就是不走捷径,踏实地解决算法与工程的双重挑战,在算力、存储、带宽等技术层面做了极致的优化。

可以直接总结网页或者PDF文档的信息:

图片

可以直接根据财报总结关键信息:

图片

月之暗面大模型体验地址: https://www.moonshot.cn/

相关推荐

热门推荐