B站(bilibili),中国知名的二次元文化社区平台,近期宣布了一项重要的技术突破:其开源了轻量级的Index-1.9B系列AI模型。
这一系列模型涵盖了多个版本,包括基座模型、对照组、对话模型和角色扮演模型,每个版本都具有独特的能力和应用场景:
1. Index-1.9B base作为系列的核心,拥有19亿非词嵌入参数量,在2.8T的中英文数据集上进行预训练,使其在多个性能评估基准上表现卓越。
2. Index-1.9B pure作为基座模型的对照组,与base版本拥有相同的参数和训练方法,但去除了所有与指令相关的数据,用于研究指令对性能的影响。
3. Index-1.9B chat是基于base版本的对话模型,通过SFT和DPO技术对齐,预训练中融入了丰富的互联网社区语料,增强了聊天的互动性和趣味性。
4. Index-1.9B character在SFT和DPO的基础上,引入了RAG技术实现fewshots角色扮演定制,允许用户创建个性化的角色。
该模型系列使用了2.8T的数据集,中英语料比例为4:5,代码占比6%。内置的角色“三三”提供了基础的角色扮演体验,用户还可以根据自己的需求创建新的角色。这些模型的开源,为社区提供了进一步探索和扩展其功能的机会,为各种应用场景提供定制化的AI解决方案。
B站此次开源的Index-1.9B系列模型,不仅展示了其在AI领域的创新能力,也为技术爱好者提供了参与和贡献的机会,共同推动AI技术的发展和应用。
Index-1.9B系列模型开源地址
开源地址是:https://github.com/bilibili (需要梯子)