论文题目:HYDRA: A Hybrid Synthesizer for Asymmetric Mixture-of-Experts Communication Scheduling
作者:廖礼达、徐干寻、斯炫玮、刘宏岩、吴羽晗、余佳硕、周佳佳、林宗烨、林俊杰、胡巧玲、朱龙隆、吴春明
通讯作者:张栋、刘宏岩
论文概述:基于对称性的集合通信调度合成器(如 SyCCL)虽然在对称网络拓扑和负载下能兼顾可扩展性和全局最优性,但其对集体对称性的强依赖导致现有方法难以有效处理 Mixture-of-Experts (MoE) 模型中固有的动态且高度非对称的 Alltoallv 通信挑战 。针对这一“僵局”,我们提出了 HYDRA,一种能够有效应对非对称流量调度的混合合成器 。我们的核心思想是利用 MoE 流量在宏观上的统计稳定性,将其分解为稳定的“基础流量”和动态的“增量流量”分别处理 。为了打破“传统方法无法在非对称场景下同时保证可扩展性与最优性”这一权衡,我们提出了一套两级分解与混合调度的策略:首先,我们在离线阶段对基础流量进行结构分解,提取出主要的对称核心利用高效的对称感知算法求解,并利用多商品流(MCF)近似模型对剩余的少量非对称残差进行精确优化 ;其次,我们在在线阶段提出了一种轻量级的最短剩余处理时间(SRPT)启发式算法,利用基础调度后的剩余带宽动态调度增量流量,实现对动态突发的快速适应 。实验结果表明,相较于现有的最先进合成器(SyCCL, TECCL)及标准库(NCCL),HYDRA将端到端 MoE 通信时间最多减少了 34.4% 。