昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE

noBug

2024-6-3 / 0 评论 / 318 阅读

6/3

站长之家(ChinaZ.com) 6月3日消息:2024年6月3日，昆仑万维宣布开源了一个性能强劲的2千亿稀疏大模型，名为 Skywork-MoE。这个模型是在之前开源的 Skywork-13B 模型的基础上扩展而来的，是首个完整应用并落地 MoE Upcycling 技术的开源千亿级 MoE 大模型。同时，这也是全球首个支持在单台4090服务器上进行推理的开源千亿级 MoE 大模型。

Skywork-MoE 的模型权重、技术报告完全开源，可以免费商用，无需申请。模型的总参数量为146B，激活参数量为22B，共有16个 Expert，每次激活其中的2个 Expert。与其他主流模型相比，在相同的激活参数量下，Skywork-MoE 的性能接近70B 的 Dense 模型，推理成本下降了近3倍。

昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE

为了解决 MoE 模型训练困难[]、泛化性能差[]等问题，Sk[]ywork-[]MoE 采用了两种训[]练优化算法:[]Gating[] Logits[] 归一化操作和[]自适应的 Aux Loss。此[]外，为了高效[]进行大规模分[]布式训练，S[]kywork[]-MoE 提出了两个并[]行优化设计:[]Expert[] Data Parall[]el 和非均匀切分[]流水并行。