根据 ObservationBeating 的监测,普林斯顿大学博士生张一凡透露,中国人工智能公司 DeepSeek(DeepSeek) 的下一代旗舰 V4 将于下周发布;他在跟帖中列出了三个架构组件:稀疏 MQA(Sparse Multi-Query Attention)、融合的 MoE Mega Kernel(Fused MoE Mega Kernel)、Hyper-Connections。张本科毕业于北京大学元培班,硕士毕业于清华大学姚班,目前是普林斯顿人工智能实验室的研究员,之前曾在字节跳动种子基础模型团队担任研究实习生;目前已经离开 DeepSeek,DeepSeek 官方也尚未确认发布时间表。
三个组件各自对应 LLM 优化中的一个独立方向。稀疏 MQA 是在多查询注意力的基础上引入稀疏性,用于在长上下文场景中进一步减少推理计算和显存占用;融合的 MoE Mega Kernel 将 MoE 的路由判断与专家矩阵乘法编码合并到同一个 GPU 内核中,减少推理阶段大量的内核启动和显存复制开销;Hyper-Connections 是残差连接的泛化,通过多个可学习的加权通路替代单一残差加法。