
【刚刚体育游戏app平台,DeepSeek 又有新行为了!】
不外和模子不蹙迫,更新了一下 DeepGEMM 代码库。
不外,这次更新,咱们看到了一个新东西:Mega MoE。
邻接:http://t.cn/AXMe5IMQ
凭据关系信息,Mega MoE 来自 DeepSeek 基础要领团队的 Chenggang Zhao 等东说念主。
粗浅说,它作念的事情很平直,即是把蓝本被拆成多段实行的 MoE 过程,揉成一悉数这个词,在 GPU 上一次性跑完。
昔日的 MoE 更像一条被切碎的活水线:dispatch、两层线性、SwiGLU、再 combine,每一步都是孤苦 kernel,中间还夹着平庸的跨卡通讯。效果即是典型的低效节拍:算斯须、等斯须,传斯须、再算斯须。Mega MoE 的作念法不错说是「平直焊死这条活水线」,不仅把悉数关节 fuse 成一个 mega-kernel,还让通讯和策画同期发生,在 Tensor Core 运算的同期通过 NVLink 传数据,把恭候技艺尽可能吃掉。
但更值得注意的,是这次一整套工程侧的变化。DeepSeek 开动把好多蓝本藏在里面的调优才智灵通出来,比如不错手动甘休 SM 使用、限度 Tensor Core 愚弄率、开启或关闭 PDL 和洽,以及搅扰 JIT 编译、对皆战略、block size 等细节。再加上一整套环境变量,连编译过程、PTX/SASS 输出、缓存战略都能限度。这种粒度更像是在调一台不错被密致操控的性能机器。
放在全部看,这次更新其实指向一个很明确的标的:DeepSeek 正在把 MoE 从「表面上很优雅,但工程上很折腾」的结构,往「不错巩固、高效跑在大限制系统上的基础要领」鼓动。
而 Mega MoE 很可能仅仅这个大标的的一块拼图;即是不知说念这块拼图是不是 DeepSeek-V4 的一部分?体育游戏app平台


