上海AI实验室搞事情！“万卷·丝路2.0”多语言语料库大放送，小语种福音来啦！-AITOP100,AI资讯

嘿，各位AI开发者，看过来！上海AI实验室这次玩大了！

最近，上海人工智能实验室宣布，他们家的“万卷·丝路2.0”多语言多模态语料库正式跟大家见面啦！这次开源，简直就是给小语种AI开发送温暖啊！

要知道，以前做小语种的AI模型，最大的难题就是数据不够。现在好了，“万卷·丝路2.0”直接给你送来了一座金矿！

以前的版本已经有阿拉伯语、俄语、韩语、越南语、泰语这几个语种了，这次更厉害，一口气新增了塞尔维亚语、匈牙利语、捷克语这三个稀缺语料数据，简直是雪中送炭！

而且，这可不是光有文字，还有图片、音频、视频，四种模态全都有，总数据量超过1150万条，音视频时长超过2.6万小时，这规模，简直了！

简单来说，就是：

这次开源的数据，包括超过200万条的图片 - 文本数据，超过1600小时的音频 - 文本数据，超过2.5万小时的视频 - 文本数据，还有18万条的SFT数据。不管你想做什么，总能找到你需要的！

据说，用“万卷·丝路2.0”训练出来的模型，效果提升非常明显。在7B参数的基础模型上，综合性能提升了52.3%！即使是在700亿参数的大模型训练中，也能保持12.8%的性能提升。这意味着，用这个数据集，你可以用更小的模型，做出更好的效果！

“万卷·丝路2.0”的开源，对于小语种AI开发来说，绝对是个重大利好。以后想做小语种相关的AI应用，再也不用愁没数据了！赶紧行动起来，用“万卷·丝路2.0”搞出点新东西吧！

数据集地址：https://www.modelscope.cn/collections/wanjuansilu-20-a3d1a96dad6042

一键微调框架：https://github.com/modelscope/ms-swift

更多AI行业最新资讯新闻信息（ai界最新新闻）请关注AI 人工智能网站--AITOP100平台--AI资讯