DeepSeek开源计划第五天：3FS强势开源，6.6TiB/s改写AI存储格局-AITOP100,AI资讯

DeepSeek在开源周的最后一天，带来了超级重磅的技术惊喜！它发布了专门为当下算力场景打造的高性能并行文件系统3FS（Fire - Flyer File System），还有配套的数据处理框架Smallpond 。

这一套组合简直太牛，直接解决了AI训练和推理时数据处理的大难题，以6.6TiB/s的集群吞吐量，刷新了行业纪录，让分布式存储技术跨进了新阶段。

DeepSeek开源计划第五天

开源原文如下：

DeepSeek开源计划第五天：3FS、用于所有 DeepSeek 数据访问的 Thruste

内容介绍：

3FS、用于所有 DeepSeek 数据访问的 Thruster Fire-Flyer 文件系统 (3FS) - 一种利用现代 SSD 和 RDMA 网络的全部带宽的并行文件系统。

180 节点集群中的聚合读取吞吐量为 6.6 TiB/s
25 节点集群中 GraySort 基准测试的吞吐量为 3.66 TiB/分钟
每个客户端节点的 KVCache 查找峰值吞吐量超过 40 GiB/s
具有强一致性语义的分解架构
在 V3/R1 中进行训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和 KVCache 查找以进行推理

Github地址： https://github.com/deepseek-ai/3FS

Smallpond -3FS→上的数据处理框架：https://github.com/deepseek-ai/smallpond

通俗解释：

1.性能超强：靠架构创新立下新标准

3FS采用去中心化架构，还设计了强一致性语义。在有180个节点的集群里，它能达到6.6TiB/s的聚合读取吞吐量，单个节点的KVCache查找峰值能超过40GiB/s 。在GraySort基准测试中，成绩达到3.66TiB/min（25节点），比老办法强太多了。它把SSD和RDMA网络的特性都优化到极致，让硬件带宽得到充分利用，给千卡级别的AI训练集群稳稳地提供数据。

2.重构场景：给AI工作流全程助力

3FS可是DeepSeek V3/R1版本的核心基础。数据预处理、检查点存储、向量搜索以及推理缓存这些关键环节，都有它的身影。它的共享存储层设计，让分布式开发变得简单多了，而且强一致性保证了大规模并发操作的安全。一起开源的Smallpond框架，有处理PB级数据的轻量能力，靠着DuckDB实现了“无服务化”数据工程，从存储到计算，形成了完整的生态闭环。