中国电信星辰AI大模型开源-AITOP100,AI资讯

2024年1月10日，中国电信宣布其自主研发的星辰AI大型模型全面开源，这一举措旨在支持客户的智能化业务升级。此举不仅彰显了中国电信在大型模型研发方面的成熟能力，也体现了其在应用落地和服务体系拓展上的强大实力。

一、星辰大模型介绍

智能化转型的新动力

中国电信致力于建设网络强国和数字中国，承担维护网络安全的使命。公司重点发展包括人工智能在内的七大战略新兴产业和未来产业。目前，星辰AI大模型已在Github、Gitee和Huggingface等平台对公众开放，共享其底层代码、算法逻辑以及预制的基础大模型、开发模块和训练工具等核心技术。用户能够直接使用大模型，或根据业务需求进行微调和个性化配置，甚至可以集成自己的知识库和数据，以获得更贴合业务需求的定制化结果。

自研大模型的卓越成就

中国电信自主研发的星辰系列大模型在国内处于领先地位，构建了涵盖语义、语音、视觉及多模态的完整框架。语义大模型的千亿参数版本在多个大模型排名榜单中表现优异。视觉大模型在城市治理任务中的应用广泛，算法日调用量高达3.3亿次。多模态大模型在图文生成和理解方面表现突出，支持多种风格生成。语音大模型则在多方言识别和多语种合成方面表现卓越。此外，星辰系列大模型在20多个行业和500多个应用场景中有效满足了多样化的AI技术需求。

科研攻关与人才汇聚

中国电信积极投入科技创新，以抓住人工智能发展的机遇。2023年11月，公司成立了中电信人工智能科技有限公司，专注于AI核心技术的研发。公司邀请了著名人工智能科学家李学龙领导研发团队，推动大模型技术的进一步发展和应用。研发人员占公司总人数的80%以上，拥有12名集团级领军人才，累计申请专利超过200项，并在18项国际AI竞赛中取得优异成绩，为实现科技自立自强和推动经济社会高质量发展贡献了新的价值。

二、星辰大模型-慧聚平台，到底是啥？

“慧聚”提供了一站式流水线工具和技术

开箱即用，降低开发门槛

看底层架构

四大平台丨六大功能模块丨两大核心技术

在行业大模型应用开发中

核心任务是需要训练出

一个专属模型或专有模型

这个开发阶段，也叫模型训练阶段

在行业和场景大模型开发中，核心问题是

让没有大模型开发经验和能力的传统开发团队快速上手

把能满足他们业务需求的大模型开发出来

慧聚的“模型开发平台”就是这样一个产品

有的开发团队，想要更省事

慧聚还有一个宝，叫“模型服务平台”

有点像大模型MarketPlace

里面的模型可太丰富多彩了

“慧聚”把各种模型做成了服务

通过API/SDK的方式调用

↓

直接调用大模型

你还可以对大模型进行微调或个性化

比如，通过构建了Prompt工程，采用全参微调、LoRA、RLHF多种快速微调的方法和方案，再加载一些自家的知识库或数据，就能调整出自己想要的结果。

其实就是一个模型推理过程

慧聚模型服务平台的推理速度极快

很多人怕“推理过程”不可控

但是通过慧聚模型服务平台能做到

全程可观测，心中一本账

服务发布、弹性扩容、服务监测

模型开发平台+模型服务平台

解决了90%以上核心开发问题

同时

“慧聚”通过底层天翼云两大核心技术

算力加速丨算力调度

缩短模型训练时间，保证训练稳定性

↓

算力加速：对AI框架针对性优化，使得模型训练推理效率更高；在训练任务分发、训练断点续训等镜像拉取的时候进行镜像加速；在数据传输层通过预加载、异步存储等技术加快数据集存取，实现数据加速。

算力调度：构建合理灵活的任务的分配和调度策略，保障训练任务能够准确到达每个所分配GPU，提升GPU利用率；感知底层GPU和IB、NVlink等网络，实时获取GPU和网络的状态；底层硬件故障之后实现快速重调度，断点续训。

而在交付方式上

慧聚平台给开发者提供了极大灵活性

↓

第一，公有云方式，通过天翼云交付

公网访问、开箱即用、按需收费

第二，私有云、专有云部署

中国电信可提供一体机

最小单机柜交付，最快2小时完成部署

不仅如此

考虑到XC等需求

还提供完善的国产化适配

在具体开发过程中

AI算力也是必考虑的因素之一

算力的速度、质量和价钱

决定了模型开发时间和成本

这次，中国电信也秀出了“钞能力”

↓

中国电信采用新一代AIDC智算液冷DC舱

打造出业界“蓝波万”的智算中心

极致算力算效，PUE低至 1.12

为大模型业务提供绿色、智能、弹性的算力底座

在超强的硬件底子之上

中国电信再秀运营商的肌肉

端网协同，榨出每一滴算力价值

建智算机房，调智算网络

这还不算完

最后再狠狠地升级了一下算力平台

↓

这就是天翼云「云骁」

高性能云智超一体化基础设施平台

云骁就像一匹拉动整个IaaS层的天马

一手算力整合和加速，一手算力运营

让算力插上翅膀，快到飞起

“云骁”平台通过一系列的算力整合、算力运营管理技术和智算加速套件，大幅提升了数据加载，异构算力的管理与调度性能，并提供了全流程可观测运营能力。

最后，我们要讲的是

除了技术层面这些超能力以外

对于广大开发者而言，开发政企类项目

采用中国电信天翼云的「慧聚平台」

意味着找到了一个强大的“隐形背书”

无形中拥有了“国云大模型生态”

↓

丰富的生态意，意味着更多选择

可以灵活地满足客户多样性需求

↓

「慧聚」的芯片生态

GPU、NPU、DPU任选，国产、通用任选

「慧聚」的模型生态

汇聚国内外各类通用大模型及行业大模型

开源闭源，任意选择

↓

「慧聚」的开发者生态

聚集了政企领域顶尖的开发者、ISV

数据共享、模型共享、案例共享...

共同推动大模型应用的行业落地

↓

大模型时代，一切可能都要重塑

通过大模型应用开发项目

重塑个人知识模型和公司业务模型

重塑数字世界，落地千行百业

而这一切的最佳起点，始于慧聚！

三、大模型地址

Github：点击进入》

Huggingface: 点击进入》

四、模型介绍

星辰语义大模型-TeleChat

星辰语义大模型TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型，采用1.5万亿 Tokens中英文高质量语料进行训练。
本次开源了对话模型TeleChat-7B-bot，以及其huggingface格式的权重文件。此外，我们还开源了7B模型的int8和int4量化版本。

模型结构

我们采用标准的 Decoder-only 结构设计了 TeleChat 模型，并在模型维度做了如下的一些改进：

位置编码：我们使用 Rotary Embedding 的位置编码方法，该方法将相对位置信息依赖集成到 self-attention 中，并且具有较好的位置外推性。Rotary Embedding还可以较好地与Flash-Attention v2 配合使用，将模型的训练速度提升约20%。
激活函数：我们使用 SwiGLU 激活函数来替代GELU激活函数 , 为了减少计算量，将ffn_hidden_size设置为小于原始SwiGLU中的4倍隐藏层大小。
层标准化: 基于 RMSNorm 的 Pre-Normalization。

为了抓住人工智能发展的良机，中国电信不断增加对科技创新的投资。2023年11月，他们成立了一家专注于AI核心技术研发的新公司——中电信人工智能科技有限公司。公司邀请了知名的人工智能专家李学龙，领导组建一个更高级别的研发团队，以推进大型模型技术的发展和实际应用。中电信人工智能科技有限公司的研发团队占员工总数的80%以上，其中包括12位集团级领导人才。他们已累计申请了200多项专利，并在18个国际AI竞赛中取得了显著成绩，赢得了多个冠军和亚军。通过这些努力，公司致力于实现科技的高水平自主发展，为经济和社会的高质量发展贡献新的价值。

原文地址： https://www.aitop100.cn/infomation/details.html?id=13270