第二十课：MoE

2023年末，Mistral发布了激动人心的大模型：Mixtral 8x7b，该模型把开放大模型的性能带到了一个新的高度，并在许多基准测试上表现优于GPT3.5。Mixtral模型把MOE（mixture of experts）结构的稀疏大模型再次带到主流大模型的视野中，那么MOE结构是什么样的？相较于传统Transformer稠密结构有哪些优势？本节公开课将带领大家全面学习MOE的相关内容，并使用昇思MindSpore进行演示。</iframe …