Shisa V2405B:日本“最强开源大脑”横空出世!
最近AI圈那叫一个热闹非凡,小编那边传来消息,有个叫Shisa.AI的公司,专门在日语AI模型微调领域深耕,他们搞出来的日英双语模型,一上线就火出了圈。今天咱就好好唠唠Shisa.AI这个新出的宝贝,看看它到底厉害在哪!
Shisa.AI是什么?
你听说了吗?Shisa.AI推出了基于Llama3.1的Shisa V2405B模型,这可是个开源的狠角色,被大家誉为“日本有史以来训练出来的最强大型语言模型”。它可不仅仅日语说得溜,英语水平那也是杠杠的,简直就是日英双语界的扛把子!
这可不是我瞎吹,测试数据那可是实打实的证据。Shisa V2405B在各种日语测试里,直接把GPT-4和GPT-4Turbo甩在了身后,甚至能和当下新晋的网红GPT-4o以及DeepSeek-V3在日语能力上掰掰手腕。这说明啥?说明日本本土的AI实验室在全球AI竞争里开始崭露头角,给日语AI应用打开了全新的大门!
地址:Shisa.AI官网地址
死磕日语优化:微调技术再攀高峰
Shisa.AI这家公司总部在东京,一门心思地给日本市场开发开源的AI语言和语音模型。小编打听到,Shisa V2系列和之前的版本可不一样。它没有去搞那些昂贵的持续预训练和分词器扩展,而是把精力都放在优化后训练流程上了。通过合成数据驱动的方法,让模型的性能蹭蹭往上涨,就像坐了火箭一样!
他们家的核心数据集ultra-orca-boros-en-ja-v1,那可是经过了各种过滤、再生和重采样。现在它被认为是目前超厉害的日英双语数据集之一,有了它,几乎任何基础模型的日语能力都能得到提升。更让人惊喜的是,这个数据集还免费开放给全球开发者使用,这简直就是业界的一股清流,太良心了!
模型家族庞大:总有一款适合你
Shisa V2系列的模型参数规模那叫一个丰富,从7B到405B不等。不管你是用轻量级设备,还是高性能计算,都能在里面找到合适的模型。小编了解到,这些模型在日语语法、角色扮演、翻译等方面表现都特别出色。尤其是在shisa-jp-ifeval(日语指令遵循测试)、shisa-jp-rp-bench(日语角色扮演基准)和shisa-jp-tl-bench(日英翻译基准)这些测试里,都比它们的基础模型厉害多了。
值得一提的是,Shisa V2405B在训练的时候还加了一些韩语和繁体中文的数据,这让它的多语言能力又上了一个台阶,给跨语言应用带来了更多的可能性。
开源精神:助力全球AI创新
Shisa.AI可不光是提升了日语AI的性能,它还通过开源的方式推动了全球AI社区的发展。小编发现,Shisa V2系列的训练日志已经在Weights and Biases平台公开了。训练过程使用了AWS Sagemaker的4节点H100集群,还结合了Axolotl、DeepSpeed和Liger Kernel等先进技术,保证了高效的模型开发。
另外,Shisa.AI还打算开源他们家的日语专用基准测试工具,有了这个工具,大家就能更好地研究和评估日语大型语言模型,给全球开发者提供了更多的支持。
未来日本AI全球竞争力大增
Shisa.AI的成功告诉我们,就算是小型AI实验室,也能在全球AI竞赛里占有一席之地。他们家开源的模型和数据集,给日语AI应用的普及提供了强有力的支持。小编觉得,随着Shisa.AI不断更新他们的模型和资源,日本在全球AI领域的地位肯定会越来越稳固。
要是你需要处理复杂的日语任务,Shisa V2系列绝对值得你一试。小编建议大家多关注Shisa.AI官方网站和HuggingFace页面,了解更多技术细节和模型体验机会。
总的来说,Shisa.AI通过他们的Shisa V2系列模型,展示了日本在AI领域的创新实力。不管是学术研究还是商业应用,这些开源模型都为日语AI的未来发展打下了坚实的基础。