• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

昆仑万维开源「天工」Skywork-13B系列大模型,0门槛商用

昆仑万维开源「天工」Skywork-13B系列大模型,0门槛商用
AI TOP100
2023-10-31 15:38:08

就在昨天,昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,而且还把全球非常大的中文数据集也一并开源了,600G、1500亿tokens!

这应该是开源的最彻底的大模型了,而且无需申请直接商用,在这里我只能说---牛啊!

昆仑万维「天工」Skywork-13B系列目前包括130亿参数的两大模型:

Skywork-13B-Base模型:该系列的基础模型,在多种基准评测中都拔得头筹的那种

Skywork-13B-Math模型:该系列的数学模型,数学能力在GSM8K评测上得分第一

它们在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。

模型下载地址:

Skywork-13B下载地址(Model Scope): https://modelscope.cn/organization/skyworkSkywork-13B
下载地址
(Github):https://github.com/SkyworkAI/Skywork


Skywork-13B系列之所以能取得如此亮眼的成绩,部分原因离不开它附带开源的“中文数据集”。毕竟好的中文数据对于大模型来说可谓是至关重要,几乎从某种程度上决定了其性能。

这次昆仑万维能将如此“至宝”无偿地给奉献出来,可以看出它对于构建开源社区、服务开发者的满满诚意。

两大模型 领先行业

昆仑万维「天工」Skywork-13B系列包括两大模型及150B Tokens高质量中文数据集。

Skywork-13B-Base模型:

Skywork-13B-Base模型是Skywork-13B的基础模型,其经由3.2万亿个多语言高质量数据训练,在CEVAL, CMMLU, MMLU, GSM8K等评测与基准测试上都展现了同等规模模型的最佳效果。

Skywork-13B-Math模型:

Skywork-13B-Math模型经过专门的数学能力强化训练,在GSM8K等数据集上取得了同等规模模型的最佳效果。

Skypile/Chinese-Web-Text-150B数据集:

该数据集是根据我们经过精心过滤的数据处理流程从中文网页中筛选出的高质量数据。本次开源的数据集大小约为600GB,总token数量约为150B,目前开源最大的中文数据集之一。

除此之外,Skywork-13B系列还公开了模型中使用的评估方法、数据配比研究和训练基础设施调优方案等。希望这些开源内容能够进一步启发社区对于大型模型预训练的认知,并推动人工智能通用智能(AGI)的实现。

五大特点 全面超越

昆仑万维「天工」Skywork-13B系列大模型在CEVAL, GSM8K等多个权威评测与基准测试上都展现了同等规模模型的最佳效果,其中文能力尤为出色,在中文科技、金融、政务等领域表现均高于其他开源模型。

Skywork-13B系列模型的五大特点:

1.最强参数表现:全面超越同等规模大模型

本次开源的Skywork-13B系列模型在CEVAL, CMMLU, MMLU, GSM8K等几大权威评估基准中全面超越LLaMA2-13B等开源大模型,在同等规模大模型间取得最佳效果。(截止至10月25日数据)

2.最多训练数据:3.2T高质量的多语言训练数据

Skywork-13B系列大模型拥有130亿参数、3.2万亿高质量多语言训练数据。在模型的生成能力、创作能力和数学推理能力提升明显。

3.最强中文语言建模能力:中文语言建模困惑度评测,超越所有中文开源模型

Skywork-13B系列大模型在中文语言建模能力方面表现出色,具有很出色的中文文创能力。在中文文本创作领域的评测中,Skywork-13B系列大模型展现出了卓越的能力,尤其在科技、金融、政务、企业服务、文创、游戏等领域均表现高于业内其他开源模型。

上图为不同领域数据下评估模型的困惑度,越低代表模型在该领域建模能力越强。结果显示天工13B在技术文章、电影、政务报告、游戏、金融,以及通用领域均表现出色

4.最大中文开源数据集之一:150B Tokens高质量中文语料

Skywork-13B系列将配套开源600GB、150B Tokens的高质量中文语料数据集Skypile/Chinese-Web-Text-150B,这是目前最大的开源中文数据集之一。开发者可以最大程度地借鉴技术报告中大模型预训练的过程和经验,深度定制模型参数,有针对性的进行训练与优化。

5.最有诚意的开源商用:无需申请,即可实现商用

目前开源社区中的中文大模型多数并非是完全可商用,一般开源社区用户通常需要进行复杂的商用授权申请流程,在某些情况,甚至有对公司规模、所在行业、用户数等维度有明确规定不给予商业授权。

此次Skywork-13B系列大模型将全面开放商用许可,用户在下载模型并同意并遵守《Skywork模型社区许可协议》后,无需再次申请授权即可将大模型进行商业用途。希望用户能够更便捷地探索Skywork-13B系列大模型技术能力,探索在不同场景下的商业化应用。

推动开源生态繁荣,让更多开发者们参与到AIGC的技术发展中,在共创和共享中推动技术的提升。

面向AI的时代,蓬勃发展的开源生态建设是构建AI和应用融合的重要一环。降低模型的研发门槛,使用成本,最大化的共享技术能力和经验,让更多的企业和开发者们参与到此次AI引领的科技变革中去。昆仑万维董事长兼CEO方汉是最早参与到开源生态建设的开源老兵,也是中文Linux开源最早的推动者之一,开源的精神和AIGC技术的发展将会在昆仑万维战略中完美融合。

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
相关资讯
  • 每日AI资讯-2025年07月17日

  • AI大赛:2025江苏创青春“人工智能+”产业链大赛燃情启幕

  • ChatGPT上线音频转录功能:Mac付费用户专属的“会议救星”来了!

  • Anthropic估值破1000亿美元:AI赛道黑马如何跑出“火箭速度”?

  • Windsurf重磅回归:Claude Sonnet4模型上线,AI编码工具竞争再升级

热点资讯

AI助手市场洗牌:DeepSeek流量腰斩,KIMI陷入沉默期,夸克异军突起用户规模突破2亿

8天前
AI助手市场洗牌:DeepSeek流量腰斩,KIMI陷入沉默期,夸克异军突起用户规模突破2亿

AIGC大赛:北京动画周48小时AIGC原创动画挑战赛,邀您共赴创意盛宴!

7天前
AIGC大赛:北京动画周48小时AIGC原创动画挑战赛,邀您共赴创意盛宴!

马斯克放大招!Grok AI上线动漫AI伴侣,每月30美元能聊“二次元”

2天前
马斯克放大招!Grok AI上线动漫AI伴侣,每月30美元能聊“二次元”

中央美院首届AIGC艺术展来了!7月解锁「数艺拂晓」新体验

1天前
中央美院首届AIGC艺术展来了!7月解锁「数艺拂晓」新体验

AITOP100 AI应用重磅更新!即梦AI 3.0、Vidu Q1、海螺AI全新升级

7天前
AITOP100 AI应用重磅更新!即梦AI 3.0、Vidu Q1、海螺AI全新升级
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有