跳到主要内容

DeepSeek 开源周项目盘点,极客精神成就世界顶级的 AI 大模型!

· 阅读需 11 分钟
阿基米东
Founder of GetIoT.tech

上周,DeepSeek 开源周(Open Source Week)发布了多个开源代码库,以完全透明的方式与全球开发者社区分享他们的研究进展,加速行业发展进程。不得不说,DeepSeek 在开源大模型上的贡献,让它越来越像真正的 OpenAI,这种纯粹的创业精神和开源创新的极客精神,值得赞叹!

今天,我们一起来盘点 DeepSeek 开源周都发布了哪些项目,方便还不了解的小伙伴们跟上脚步。

FlashMLA

DeepSeek 开源周第一天,开源了一个名为 FlashMLA 的项目,短短几个小时,该项目就已经收获了超过 3.5K Star。

了解大语言模型(LLM)训练的朋友应该知道,MLA 是 Multi-Head Latent Attention 的缩写,也就是“多头潜在注意力”。而 FlashMLA 就是一个针对 Hopper GPU 优化的高效 MLA 解码内核,它支持变长序列处理,并通过优化 MLA 解码和分页 KV 缓存,提高 LLM 推理效率。

总之,有了 FlashMLA,就可以在 H100 / H800 这样的高端 GPU 上发挥出极致性能。

FlashMLA 的主要应用场景包括:

  • 长序列处理:适合处理数千个 Token 的文本,如文档分析或长对话。
  • 实时应用:如聊天机器人、虚拟助手和实时翻译系统,降低延迟。
  • 资源效率:减少内存和计算需求,便于在边缘设备上部署。

那这么厉害的项目,DeepSeek 是如何想到的呢?根据官方的介绍,其实 FlashMLA 的灵感来自于 FlashAttention 2&3 和 cutlass 项目。

  • FlashAttention 是一种高效的注意力计算方法,专门针对 Transformer 模型(如 GPT、BERT)的自注意力机制进行优化。它的核心目标是减少显存占用并加速计算。
  • cutlass 也是一个优化工具,主要帮助提高计算效率。

所以说 FlashMLA 开源项目也是 DeepSeek 团队给开源社区的回馈。

GitHub 地址:https://github.com/deepseek-ai/FlashMLA

DeepEP

DeepSeek 开源周第二天,开源了一个名为 DeepEP 的项目,这是第一个用于 MoE(专家)模型训练和推理的开源 EP 通信库。

EP 的全称是 Expert Parallelism,即“专家并行”。它是一种在大规模分布式 AI 模型训练中使用的技术,能用于提升模型并行处理能力和训练效率。DeepSeek 团队表示,对于延迟敏感的推理解码任务,DeepEP 包含有一组使用纯 RDMA 的低延迟内核,可以用于将延迟最小化,DeepEP 还引入一种通信与计算重叠的方法,这种方法可以不占用 SM(流处理器)资源。

简而言之,DeepEP 也是用于提升 GPU(图形处理器)利用效率的关键技术之一。

GitHub 地址:https://github.com/deepseek-ai/DeepEP

DeepGEMM

DeepSeek 开源周第三天,开源了一个名为 DeepGEMM 的项目,这是一个专为干净、高效的 FP8 通用矩阵乘法(GEMM)而设计的库,具有细粒度缩放功能。

FP8 是一种压缩数字的方法,相当于把原本需要 32 位或 16 位存储的数字,精简成 8 位存储。这种压缩计算的好处是内存占用减少了,因此计算速度更快,不过也更容易出错。

DeepGEMM 库具有以下优势:

  • 更高的效率:通过 FP8 和两级累积降低了计算和内存开销;
  • 灵活的部署:JIT 编译适应性强,减少预编译负担;
  • 针对性优化:支持 MoE 并深度适配 Hopper 张量核心;
  • 更简洁的设计:核心代码少,避免复杂依赖,便于学习和优化。

DeepGEMM 库使用 CUDA 编写,其核心逻辑仅约 300 行代码,却在大多数矩阵尺寸上超越了专家级别调优的内核。在安装过程中无需编译,而是使用轻量级即时(JIT)模块在运行时编译所有内核。

GitHub 地址:https://github.com/deepseek-ai/DeepGEMM

DualPipe 和 EPLB

DeepSeek 开源周第四天,带来了一套专为大规模 AI 模型设计的并行计算策略优化工具。这次发布包括以下三个项目:

  • DualPipe:一种用于 V3/R1 训练的双向流水线并行算法,实现计算和通信完全重叠;
  • EPLB(Expert Parallelism Load Balancer):专为 V3/R1 设计的专家并行负载均衡器;
  • Profile-data:分析 V3/R1 中计算与通信重叠的性能数据集。

传统的流水线并行(Pipeline Parallelism)算法在处理大型模型时面临两个主要挑战,① 是计算资源的空闲等待,某些设备必须等待前一个设备完成计算才能开始工作;② 是数据传输的延迟,设备间数据传输占用大量时间。DualPipe 通过双向处理巧妙解决了这些问题 —— 数据不只是从第一个设备单向流向最后一个设备,而是同时有两组数据从两端相向流动。这种双向设计使得所有设备都能保持高活跃度,显著减少了空闲等待时间。

而在使用专家并行(EP)技术时,不同的 "专家"(特定于某类任务的神经网络部分)会被分配到不同的 GPU 上。由于各专家处理的数据量可能差异很大,保持各 GPU 间的工作负载平衡变得尤为重要。EPLB 就是实现 DeepSeek-V3 论文中描述的 "冗余专家"(Redundant Experts)策略的关键,它会复制那些工作量较大的专家,然后通过精心设计的算法将这些专家合理分配到各 GPU 上,确保负载均衡。

Profile-data 项目包含了 DeepSeek 训练和推理框架的性能分析数据,这些数据可以帮助社区更好地理解计算与通信如何有效重叠以及底层实现细节。这据使用 PyTorch Profiler 工具捕获,可以在 Chrome 或 Edge 浏览器的 tracing 页面直接可视化,直观呈现各项操作的执行时间和资源占用。

总而言之,就是这些工具,共同支撑了 DeepSeek-V3 和 DeepSeek-R1 训练和推理的高效并行处理能力。

GitHub 地址:

3FS 和 Smallpond

DeepSeek 开源周第五天,带来的是 Fire-Flyer File System(Fire-Flyer 文件系统,简称 3FS)和基于 3FS 的数据处理框架 Smallpond。

根据官方的解释,3FS 是一个高性能并行文件系统,专为现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络设计,旨在解决 AI 训练和推理工作负载中的存储瓶颈问题。而 Smallpond 则是一个基于 DuckDB 和 3FS 的轻量级数据处理框架(由 DuckDB 提供支持的高性能数据处理),它可以进一步优化 3FS 的数据管理能力,让数据处理更加方便、快捷。

毫不夸张地说,3FS 和 Smallpond 这两个开源项目,正在为 AI 数据处理设立新的标准 —— 超快的处理速度和无缝集成。

GitHub 地址:

总结

DeepSeek 开源周连续五天带来了八个令人赞叹的开源项目,DeepSeek 竟然自己编写了那么多极致性能的库,甚至还自己编写了分布式文件系统!看到这些,我只想说一句“事在人为,我命由我不由天!” DeepSeek 团队有很多值得我们学习的地方,它的成功并非偶然,而是其背后强大的理念和极客精神 —— 将小事做到极致。

而在连续五天开源日之后,DeepSeek 还来了一个“One More Thing” —— 首次公开了它的利润率。根据其公开的信息计算,DeepSeek 理论上一天的总收入为 562,027 美元,成本利润率高达 545%。难怪 DeepSeek 创始人梁文锋说按目前的价格他们不亏本,这就是 DeepSeek 作为世界顶级的 AI 大模型的底气。