昇腾算力“炼”出业界一流大模型

0次浏览发布时间：2025-05-30 20:14:00

记者从华为公司获悉，华为日前在MoE模型训练领域再进一步，推出参数规模高达7180亿的全新模型——盘古Ultra MoE。这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时还发布了盘古Ultra MoE模型架构和训练方法的技术报告，披露众多技术细节，充分体现了昇腾在超大规模MoE模型训练性能上的跨越。

业界专家表示，训练超大规模和极高稀疏性的MoE模型极具挑战，训练过程中的稳定性往往难以保障。针对这一难题，盘古团队在模型架构和训练方法上进行了创新性设计，成功地在昇腾平台上实现了准万亿MoE模型的全流程训练。

据介绍，在模型架构上，盘古团队提出DSSN稳定架构和TinyInit小初始化的方法，在昇腾平台上实现了超过18TB数据的长期稳定训练。同时，盘古Ultra MoE使用了业界先进的MLA和MTP架构，在预训练和后训练阶段都使用了Dropless训练策略，实现了超大规模MoE架构在模型效果与效率之间的最佳平衡。

在训练方法上，华为团队首次披露在昇腾CloudMatrix 384超节点上，高效打通大稀疏比MoE强化学习(RL)后训练框架的关键技术，使RL后训练进入超节点集群时代。同时，在5月初发布的预训练系统加速技术基础上，不到一个月时间内，华为团队又完成了一轮迭代升级，包括适配昇腾硬件的自适应流水掩盖策略、自适应管理内存优化策略的开发，以及昇腾亲和的算子优化等，这些技术实现万卡集群预训练MFU(模型算力利用率)由30%大幅提升至41%。

此外，近期发布的盘古Pro MoE大模型，在参数量仅为720亿、激活160亿参数量的情况下，通过动态激活专家网络的创新设计，实现了以小打大的优异性能。

业内专家表示，华为盘古Ultra MoE和盘古Pro MoE系列模型的发布，说明华为不仅完成了国产算力+国产模型的全流程自主可控的训练实践，同时在集群训练系统的性能上也实现了业界领先，国产人工智能基础设施的自主创新能力得到了进一步验证，这为中国人工智能产业的发展提供了有力支撑。(记者吴蔚)