...文章只提到 decoding 阶段,batch size per batch it relatively
4、reasoning CoT的用户服务阶段,取决于用户服务qps 以及调度系统性能,batching step by step的batch受到相应影响,可能会跳出访存bound区间。DSV3文章只提到 decoding 阶段,batch size per batch it relatively small usually 256,如果文章没有笔误的话,模型的总batch应该是远大于256的,这个是个很有意思的信息,可能意味...