2023年末,Mistral发布了激动人心的大模型:Mixtral 8x7b,该模型把开放大模型的性能带到了一个新的高度,并在许多基准测试上表现优于GPT3.5。Mixtral模型把MOE(mixture of experts)结构的稀疏大模型再次带到主流大模型的视野中,那么MOE结构是什么样的?相较于传统Transformer稠密结构有哪些优势?本节公开课将带领大家全面学习MOE的相关内容,并使用昇思MindSpore进行演示。</iframe …
2023年末,Mistral发布了激动人心的大模型:Mixtral 8x7b,该模型把开放大模型的性能带到了一个新的高度,并在许多基准测试上表现优于GPT3.5。Mixtral模型把MOE(mixture of experts)结构的稀疏大模型再次带到主流大模型的视野中,那么MOE结构是什么样的?相较于传统Transformer稠密结构有哪些优势?本节公开课将带领大家全面学习MOE的相关内容,并使用昇思MindSpore进行演示。</iframe …