最新开源的国产金融行业大模型——度小满“轩辕70B”,来了!
模型简介:
轩辕是国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。轩辕在BLOOM-176B的基础上针对中文通用领域和金融领域进行了针对性的预训练与微调,它不仅可以应对通用领域的问题,也可以解答与金融相关的各类问题,为用户提供准确、全面的金融信息和建议。
开源地址链接:https://github.com/Duxiaoman-DI/XuanYuan
度小满近日推出全新的金融行业大模型——“轩辕70B”,标志着金融大模型发展迈向了全新的高度。
数据显示, 在C-Eval榜单上,XuanYuan-70B的总成绩达到71.9分;在CMMLU榜单中,以71.05分的高分位居榜首,在两大权威榜单上的所有开源模型中排名第一,也是国内首个同时在两大权威榜单排名第一的金融大模型。
在中文任务评测C-Eval和CMMLU榜单中名列开源首位。
此外,“轩辕70B”的强项在于其专业的金融能力,受益于海量金融专业语料库的训练,无论是注册会计师考试(CPA)、银行/证券/保险/基金/期货从业资格、理财规划师、经济师等金融领域十大类权威考试,都能提供专业的支持和解答。
总结来看,“轩辕70B”拥有以下特点:
1.首个拥有70B参数量级,并且上下文长度能达到8k以上的开源大模型
2.在预训练阶段融入了大量的专业金融语料,以实现在维持中英文通用能力的同时,显著提升金融专业性能。
3.模型训练采取了一系列的加速优化策略。在100台8卡A800(80G)的GPU集群中,“轩辕70B”在8192的上下文长度下能够达到340tokens/s/gpu的速度,TFLOPS达190,训练效率达到领先水平。
而且,这款金融大模型目前已在开源社区进行了全面开放,包括模型权重和训练语料,为整个金融行业提供了一个全新的、更高效的中文基座模型,后续用户也可以根据自己的需求进行自定义的指令微调。
评测表现
下面我们来看一下“轩辕70B”的表现。
(一)卓越的通用能力,多个测评榜单领先
1.C-Eval 是一个全面的中文基础模型评估基准。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别
2.CMMLU 是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。
度小满数据智能应用部总经理、技术委员会执行主席杨青表示:
度小满将继续忠实于开源的理念,致力于为金融机构和研究团队提供高性能、易用的金融大模型。我们仍将不断优化轩辕70B的效果,并逐步推出‘轩辕70B-Chat’模型和‘轩辕70B-16k’的版本,以满足不同金融场景的需求。
人工进行主观测试,“轩辕70B”在各类问题都有良好的表现。
a. 数学计算:
b.代码:
c. 安全性:
(二)领先的金融实力
度小满专注于解决大模型在金融领域应用的核心难题。传统的通用大模型在金融场景中的局限性主要体现在对专业术语、业务逻辑和公式计算等的缺乏深入理解,从而使其在多数金融问题上表现不佳。这一挑战进一步凸显了构建针对金融行业的专用大模型的迫切性。
在金融应用场景中,模型的效用往往取决于其对于金融专业知识的深度掌握。金融行业涉及多个子领域,包括但不限于理财、信贷、保险、和投资。
为了全方位评估模型在这一特定环境中的性能,“轩辕70B”特地制定了一套中文金融领域知识评估数据集。
这一数据集涵盖了10个金融大类以及36个金融小类,包括7173个单项选择题,全面覆盖了从注册会计师(CPA)考试到银行、证券、保险、基金、期货从业资格,再到理财规划师、经济师等多个权威金融认证。
结果显示,“轩辕70B”在金融专业知识方面表现卓越,全面超越了各大开闭源模型,这一结果不仅验证了模型在金融各子领域的深度理解和应用能力,也标志着它能为金融行业提供一体化、系统性的专业支持。该评测数据集也已经对外开放,以供社区自行评测。
为更生动地展示“轩辕70B”的金融实力,以下举例几个应用实例:
a.金融知识类
该模型在回答金融知识类问题,如“金融监管治理的四大要素”时,不仅答案准确,还深入解析了每个要素的具体含义和重要性。
b.金融计算类
金融行业有大量的计算场景。在处理金融计算类问题时,该模型不仅提供了准确答案,还一步步展示了其逻辑推理过程,证明了其在复杂金融推理任务中的强大能力。
“轩辕70B”不仅开源了模型本身,还额外提供了一个60GB的高质量金融专用语料库,并已对外开放下载。