DeepSeekオープンソースTileKernels、Engram、およびmHCプロダクショングレードカーネルが初めて公開され、次世代モデルへの道が開かれました。

根据Beating 动察的监测，DeepSeek 以 MIT 许可证开源 TileKernels，公开了一批面向大型模型训练和推理的 GPU 底层计算代码，其中部分已经在内部生产环境中使用。GPU 内核（kernel）是在显卡上直接运行的计算程序，决定了模型训练和推理的速度上限。TileKernels 全部用 Python 编写，依赖于 GPU 内核的专用语言 TileLang 来自动完成底层优化，无需手写 CUDA C++。DeepSeek 表示，大多数内核已接近硬件性能极限。

该库包含了两个生产级内核，这两个内核是 DeepSeek-V3 和 R1 论文中未曾提及的架构组件。Engram 是 DeepSeek 在今年 1 月提出的条件记忆模块，通过哈希查找表以 O(1) 复杂度检索静态知识（如实体、固定短语），与 Moe 的条件计算相辅相成，从而卸载模型主干的记忆负担；Manifold HyperConnection（mHC）改进了 Byte Seed 团队在 2024 年提出的 HyperConnection，通过双随机矩阵约束解决了大规模训练时的信号发散问题。这两个组件之前仅存在于论文和演示代码中，TileKernels 首次提供了可用于训练的高性能实现，表明 DeepSeek 已经为将这些组件集成到下一代模型做好了工程准备。

该库还涵盖了 Moe 的路由与门控、多种低精度量化（FP8、FP4 等）、批量转置等常见环节。您可以通过 `pip install tile-kernels` 进行安装，运行需要 H100/H200 或 Blackwell 系列的 GPU。

原文リンク

訂正/通報