非MoE模型正常。 运行环境: 除了利用率低,之前还出现过一个问题:Qwen1.5-MoE-A2.7B-Chat训练到80多steps时卡住,GPU利用率突然到99%,然后就一直保持这个状态。运行环境除了output_router_logits=True没有设置外,其他都一样。设置了output_router_logits=True后正常运行。 你好,你是用的多少卡/显存run起来的? 在...
当GPU-Util约为25%时,Screen运行平稳,但对于55%则相当慢。在第一种情况下,GPU内存使用率约为5.7 8GB/8 8GB,第二种情况下为5.2 8GB/8 8GB。在第二个GPU上(我很确定操作系统没有使用它),我有GPU-Util 99%,这让我认为如果需要的话,GPU有能力达到非常高的GPU-Util。我的假设是,我的电脑没有问题,但我遗...