根据Beating 动察 的监测,DeepSeek 以 MIT 许可证开源 TileKernels,公开了一批面向大型模型训练和推理的 GPU 底层计算代码,其中部分已经在内部生产环境中使用。GPU 内核(kernel)是在显卡上直接运行的计算程序,决定了模型训练和推理的速度上限。TileKernels 全部用 Python 编写,依赖于 GPU 内核的专用语言 TileLang 来自动完成底层优化,无需手写 CUDA C++。DeepSeek 表示,大多数内核已接近硬件性能极限。
该库包含了两个生产级内核,这两个内核是 DeepSeek-V3 和 R1 论文中未曾提及的架构组件。Engram 是 DeepSeek 在今年 1 月提出的条件记忆模块,通过哈希查找表以 O(1) 复杂度检索静态知识(如实体、固定短语),与 Moe 的条件计算相辅相成,从而卸载模型主干的记忆负担;Manifold HyperConnection(mHC)改进了 Byte Seed 团队在 2024 年提出的 HyperConnection,通过双随机矩阵约束解决了大规模训练时的信号发散问题。这两个组件之前仅存在于论文和演示代码中,TileKernels 首次提供了可用于训练的高性能实现,表明 DeepSeek 已经为将这些组件集成到下一代模型做好了工程准备。
该库还涵盖了 Moe 的路由与门控、多种低精度量化(FP8、FP4 等)、批量转置等常见环节。您可以通过 `pip install tile-kernels` 进行安装,运行需要 H100/H200 或 Blackwell 系列的 GPU。