嘿,各位AI开发者,看过来!上海AI实验室这次玩大了!
最近,上海人工智能实验室宣布,他们家的“万卷·丝路2.0”多语言多模态语料库正式跟大家见面啦!这次开源,简直就是给小语种AI开发送温暖啊!
要知道,以前做小语种的AI模型,最大的难题就是数据不够。现在好了,“万卷·丝路2.0”直接给你送来了一座金矿!
以前的版本已经有阿拉伯语、俄语、韩语、越南语、泰语这几个语种了,这次更厉害,一口气新增了塞尔维亚语、匈牙利语、捷克语这三个稀缺语料数据,简直是雪中送炭!
而且,这可不是光有文字,还有图片、音频、视频,四种模态全都有,总数据量超过1150万条,音视频时长超过2.6万小时,这规模,简直了!
“万卷·丝路2.0”到底牛在哪?
简单来说,就是:
- 语种多:覆盖更多小语种,解决数据难题。
- 规模大:数据量超级足,喂饱你的模型。
- 模态全:文本、图片、音频、视频,应有尽有。
- 质量高:经过精心标注和质检,靠谱!
这次开源的数据,包括超过200万条的图片 - 文本数据,超过1600小时的音频 - 文本数据,超过2.5万小时的视频 - 文本数据,还有18万条的SFT数据。不管你想做什么,总能找到你需要的!
效果怎么样?数据说话!
据说,用“万卷·丝路2.0”训练出来的模型,效果提升非常明显。在7B参数的基础模型上,综合性能提升了52.3%!即使是在700亿参数的大模型训练中,也能保持12.8%的性能提升。这意味着,用这个数据集,你可以用更小的模型,做出更好的效果!
总而言之!
“万卷·丝路2.0”的开源,对于小语种AI开发来说,绝对是个重大利好。以后想做小语种相关的AI应用,再也不用愁没数据了!赶紧行动起来,用“万卷·丝路2.0”搞出点新东西吧!
数据集地址:https://www.modelscope.cn/collections/wanjuansilu-20-a3d1a96dad6042
一键微调框架:https://github.com/modelscope/ms-swift