本质上和bf16没区别。赤兔这里因为权重拿fp8存储有几个优势 1- 原生权重,不用搞成int8来考虑精度change的损失。2- load模型显存少一半,意味着同等数量的卡,就能腾出更多 显存给kvcache用,提升推理速度。3- 跟bf16模式的R1推理相比 fp8 load 权重速度快,因为小一半,所以显存带宽就能提升一倍。 就这么3个提升点...