经过调查,我们发现这与A800和A100 GPU的NVLink带宽差异有关。通过在两个集群上使… 阅读全文 发表了文章2023-07-31 20:39 为什么现在大家都在用 MQA 和 GQA? Andy Yang 生活、学习、思考和观察世界 好几周前读完 GQA 论文就想写的,但一直拖着。直到最近 LLAMA2,还有 NV 小伙伴问到我这一点,我解释了...