2024年1月10日,中国电信宣布其自主研发的星辰AI大型模型全面开源,这一举措旨在支持客户的智能化业务升级。此举不仅彰显了中国电信在大型模型研发方面的成熟能力,也体现了其在应用落地和服务体系拓展上的强大实力。
一、星辰大模型介绍
智能化转型的新动力
中国电信致力于建设网络强国和数字中国,承担维护网络安全的使命。公司重点发展包括人工智能在内的七大战略新兴产业和未来产业。目前,星辰AI大模型已在Github、Gitee和Huggingface等平台对公众开放,共享其底层代码、算法逻辑以及预制的基础大模型、开发模块和训练工具等核心技术。用户能够直接使用大模型,或根据业务需求进行微调和个性化配置,甚至可以集成自己的知识库和数据,以获得更贴合业务需求的定制化结果。
自研大模型的卓越成就
中国电信自主研发的星辰系列大模型在国内处于领先地位,构建了涵盖语义、语音、视觉及多模态的完整框架。语义大模型的千亿参数版本在多个大模型排名榜单中表现优异。视觉大模型在城市治理任务中的应用广泛,算法日调用量高达3.3亿次。多模态大模型在图文生成和理解方面表现突出,支持多种风格生成。语音大模型则在多方言识别和多语种合成方面表现卓越。此外,星辰系列大模型在20多个行业和500多个应用场景中有效满足了多样化的AI技术需求。
科研攻关与人才汇聚
中国电信积极投入科技创新,以抓住人工智能发展的机遇。2023年11月,公司成立了中电信人工智能科技有限公司,专注于AI核心技术的研发。公司邀请了著名人工智能科学家李学龙领导研发团队,推动大模型技术的进一步发展和应用。研发人员占公司总人数的80%以上,拥有12名集团级领军人才,累计申请专利超过200项,并在18项国际AI竞赛中取得优异成绩,为实现科技自立自强和推动经济社会高质量发展贡献了新的价值。
二、星辰大模型-慧聚平台,到底是啥?
“慧聚”提供了一站式流水线工具和技术
开箱即用,降低开发门槛
看底层架构
四大平台丨六大功能模块丨两大核心技术
在行业大模型应用开发中
核心任务是需要训练出
一个专属模型或专有模型
这个开发阶段,也叫模型训练阶段
在行业和场景大模型开发中,核心问题是
让没有大模型开发经验和能力的传统开发团队快速上手
把能满足他们业务需求的大模型开发出来
慧聚的“模型开发平台”就是这样一个产品
有的开发团队,想要更省事
慧聚还有一个宝,叫“模型服务平台”
有点像大模型MarketPlace
里面的模型可太丰富多彩了
“慧聚”把各种模型做成了服务
通过API/SDK的方式调用
↓
直接调用大模型
你还可以对大模型进行微调或个性化
比如,通过构建了Prompt工程,采用全参微调、LoRA、RLHF多种快速微调的方法和方案,再加载一些自家的知识库或数据,就能调整出自己想要的结果。
其实就是一个模型推理过程
慧聚模型服务平台的推理速度极快
很多人怕“推理过程”不可控
但是通过慧聚模型服务平台能做到
全程可观测,心中一本账
服务发布、弹性扩容、服务监测
模型开发平台+模型服务平台
解决了90%以上核心开发问题
同时
“慧聚”通过底层天翼云两大核心技术
算力加速丨算力调度
缩短模型训练时间,保证训练稳定性
↓
算力加速:对AI框架针对性优化,使得模型训练推理效率更高;在训练任务分发、训练断点续训等镜像拉取的时候进行镜像加速;在数据传输层通过预加载、异步存储等技术加快数据集存取,实现数据加速。
算力调度:构建合理灵活的任务的分配和调度策略,保障训练任务能够准确到达每个所分配GPU,提升GPU利用率;感知底层GPU和IB、NVlink等网络,实时获取GPU和网络的状态;底层硬件故障之后实现快速重调度,断点续训。
而在交付方式上
慧聚平台给开发者提供了极大灵活性
↓
第一,公有云方式,通过天翼云交付
公网访问、开箱即用、按需收费
第二,私有云、专有云部署
中国电信可提供一体机
最小单机柜交付,最快2小时完成部署
不仅如此
考虑到XC等需求
还提供完善的国产化适配
在具体开发过程中
AI算力也是必考虑的因素之一
算力的速度、质量和价钱
决定了模型开发时间和成本
这次,中国电信也秀出了“钞能力”
↓
中国电信采用新一代AIDC智算液冷DC舱
打造出业界“蓝波万”的智算中心
极致算力算效,PUE低至 1.12
为大模型业务提供绿色、智能、弹性的算力底座
在超强的硬件底子之上
中国电信再秀运营商的肌肉
端网协同,榨出每一滴算力价值
建智算机房,调智算网络
这还不算完
最后再狠狠地升级了一下算力平台
↓
这就是天翼云「云骁」
高性能云智超一体化基础设施平台
云骁就像一匹拉动整个IaaS层的天马
一手算力整合和加速,一手算力运营
让算力插上翅膀,快到飞起
“云骁”平台通过一系列的算力整合、算力运营管理技术和智算加速套件,大幅提升了数据加载,异构算力的管理与调度性能,并提供了全流程可观测运营能力。
最后,我们要讲的是
除了技术层面这些超能力以外
对于广大开发者而言,开发政企类项目
采用中国电信天翼云的「慧聚平台」
意味着找到了一个强大的“隐形背书”
无形中拥有了“国云大模型生态”
↓
丰富的生态意,意味着更多选择
可以灵活地满足客户多样性需求
↓
「慧聚」的芯片生态
GPU、NPU、DPU任选,国产、通用任选
「慧聚」的模型生态
汇聚国内外各类通用大模型及行业大模型
开源闭源,任意选择
↓
「慧聚」的开发者生态
聚集了政企领域顶尖的开发者、ISV
数据共享、模型共享、案例共享...
共同推动大模型应用的行业落地
↓
大模型时代,一切可能都要重塑
通过大模型应用开发项目
重塑个人知识模型和公司业务模型
重塑数字世界,落地千行百业
而这一切的最佳起点,始于慧聚!
三、大模型地址
Github:点击进入》
Huggingface: 点击进入》
四、模型介绍
星辰语义大模型-TeleChat
- 星辰语义大模型TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型,采用1.5万亿 Tokens中英文高质量语料进行训练。
- 本次开源了对话模型TeleChat-7B-bot,以及其
huggingface
格式的权重文件。此外,我们还开源了7B模型的int8和int4量化版本。
模型结构
我们采用标准的 Decoder-only
结构设计了 TeleChat 模型,并在模型维度做了如下的一些改进:
- 位置编码:我们使用 Rotary Embedding 的位置编码方法,该方法将相对位置信息依赖集成到 self-attention 中,并且具有较好的位置外推性。Rotary Embedding还可以较好地与Flash-Attention v2 配合使用,将模型的训练速度提升约20%。
- 激活函数:我们使用 SwiGLU 激活函数来替代GELU激活函数 , 为了减少计算量,将
ffn_hidden_size
设置为小于原始SwiGLU中的4倍隐藏层大小。 - 层标准化: 基于 RMSNorm 的 Pre-Normalization。
为了抓住人工智能发展的良机,中国电信不断增加对科技创新的投资。2023年11月,他们成立了一家专注于AI核心技术研发的新公司——中电信人工智能科技有限公司。公司邀请了知名的人工智能专家李学龙,领导组建一个更高级别的研发团队,以推进大型模型技术的发展和实际应用。中电信人工智能科技有限公司的研发团队占员工总数的80%以上,其中包括12位集团级领导人才。他们已累计申请了200多项专利,并在18个国际AI竞赛中取得了显著成绩,赢得了多个冠军和亚军。通过这些努力,公司致力于实现科技的高水平自主发展,为经济和社会的高质量发展贡献新的价值。
原文地址: https://www.aitop100.cn/infomation/details.html?id=13270