我把DeepSeekV3 MoE 中关于 aux-loss-free & sequence aux-loss 整合了,目前应用到 AISHELL 的小模型测试效果也不错,大家也可以一起尝试下。链接 发布于 2025-02-25 09:33・IP 属地上海 赞同4 分享收藏 写下你的评论... 2 条评论 默认 最新 孙总 没看知乎,直接在github上搜到的,...
苏剑林 数学、python、数据挖掘、天文 《MoE环游记:2、不患寡而患不均》链接本文介绍了MoE的负载均衡问题,并给出了一种构建Aux Loss的一般思路。 发布于 2025-02-21 11:55・IP 属地广东 赞同 分享收藏 写下你的评论... 还没有评论,发表第一个评论吧登录知乎,您可以享受以下权益:...
切换模式 登录/注册 JerryYin777 互联网行业 从业人员 DeepSeekv2 其他的Loss实现 | 如题,实现了另外两种Loss Github代码:链接 Device-Level Balance Loss and Communication Balance Loss of DeepSeek v2 Tech Report (The Official Code only gives the implementation of Aux Loss and LM Loss) ...