DeepSeek V4が来週リリース予定であり、Yifan Zhangが3つのアーキテクチャコンポーネントを公開しました。

根据 ObservationBeating 的监测，普林斯顿大学博士生张一凡透露，中国人工智能公司 DeepSeek（DeepSeek）的下一代旗舰 V4 将于下周发布；他在跟帖中列出了三个架构组件：稀疏 MQA（Sparse Multi-Query Attention）、融合的 MoE Mega Kernel（Fused MoE Mega Kernel）、Hyper-Connections。张本科毕业于北京大学元培班，硕士毕业于清华大学姚班，目前是普林斯顿人工智能实验室的研究员，之前曾在字节跳动种子基础模型团队担任研究实习生；目前已经离开 DeepSeek，DeepSeek 官方也尚未确认发布时间表。

三个组件各自对应 LLM 优化中的一个独立方向。稀疏 MQA 是在多查询注意力的基础上引入稀疏性，用于在长上下文场景中进一步减少推理计算和显存占用；融合的 MoE Mega Kernel 将 MoE 的路由判断与专家矩阵乘法编码合并到同一个 GPU 内核中，减少推理阶段大量的内核启动和显存复制开销；Hyper-Connections 是残差连接的泛化，通过多个可学习的加权通路替代单一残差加法。

原文リンク

訂正/通報

人気記事

15倍の価格上昇で歴史的な高値を達成したバイナンスコインの人生、および人工ブルランの三度の救い

リスク管理コアチームが解雇されると、Aaveの不良債権額は20億ドルに達しました。

コードに問題がなくても盗まれることがあります。2026年の最大のハッカーケースの元凶である「DVN構成脆弱性」は何ですか？

a16z: AIの次なるフロンティア、ロボット、自己主導型サイエンス、脳-コンピューターインターフェースの三位一体のフライホイール

オンチェーン探偵が継続的に監視中

2小时前

あるトレーダーは2日前に575ドルを使い、27.9億のASTEROIDトークンを購入しました。現在のリターン率は1700倍を超えています。

2小时前

あるウェールZROのロングポジションが一部清算され、288 万ドルの損失を被りました

3小时前

超過54億ドルの資産が、Aaveから大量のETHを借りたハッカーによる緊急脱出の後に影響を受けました。

4小时前

あるアドレスが ASTEROID を 8.02 億枚保有しており、評価益は 260 万ドルに達しています。

24H重要情報

ビットコインはイランによってホルムズ海峡の通行料として指定されていますが、実際の決済は主にステーブルコインで行われています。

トランプ氏とパキスタン陸軍参謀総長が、ホルムズ海峡の状況やイランとの協定の詳細について話し合いました。

美メディア：トランプは公には得意そうに振る舞っていますが、内心は恐怖に満ちている

AaveプラットフォームでのUSDTローンのAPYが14.99%に急上昇しました

訂正/通報

送信

新しいライブラリを追加

自分のみが閲覧可

公開

保存

ライブラリを選択

新しいライブラリを追加

キャンセル

完了