先说结论,大模型的训练用 4090 是不行的,但推理(inference/serving)用 4090 不仅可行,在性价比上还能比 H100 稍高。4090 如果极致优化,性价比甚至可以达到 H100 的 2 倍。 事实上,H100/A100 和 4090 最大的区别就在通信和内存上,算力差距不大。 H100 A100 4090 Tensor FP16 算力 989 Tflops 312 Tflops 3...
『大模型训练为什么用A100不用4090』O大模型训练为什么用A100不用4090 大模型训练为什么用A100不用4090链接:https://zhuanlan.zhihu.com/p/655402388 这是一个好问题。先说结论,大...û收藏 转发 评论 ñ赞 评论 o p 同时转发到我的微博 按热度 按时间 正在加载,请稍候......
首先看吞吐量,看起来没有什么违和的,在单卡能放下模型的情况下,确实是 H100 的吞吐量最高,达到 4090 的两倍。看算力和内存也能看出来,H100 的 FP16 算力大约是 4090 的 3 倍,内存带宽是 3.35 倍,训练过程中由于 batch size 比较大,大多数算子是 compute bound(计算密集型),少数算子是 memory bound(内存...
首先看吞吐量,看起来没有什么违和的,在单卡能放下模型的情况下,确实是 H100 的吞吐量最高,达到 4090 的两倍。看算力和内存也能看出来,H100 的 FP16 算力大约是 4090 的 3 倍,内存带宽是 3.35 倍,训练过程中由于 batch size 比较大,大多数算子是 compute bound(计算密集型),少数算子是 memory bound(内存...
大模型训练为什么用A100不用4090 这是一个好问题。先说结论,大模型的训练用 4090 是不行的,但推理(inference/serving)用 4090 不仅可行,在性价比上还能跟 H100 打个平手。 事实上,H100/A100 和 4090 最大的区别就在通信和内存上,算力差距不大。 H1
这是一个好问题。先说结论,大模型的训练用 4090 是不行的,但推理(inference/serving)用 4090 不仅可行,在性价比上还能跟 H100 打个平手。 事实上,H100/A100 和 4090 最大的区别就在通信和内存上,算力差距不大。 H100 这个售价其实是有 10 倍以上油水的。2016 年我在 MSRA 的时候,见证了微软给每块服务器...
这是一个好问题。先说结论,大模型的训练用 4090 是不行的,但推理(inference/serving)用 4090 不仅可行,在性价比上还能比 H100 稍高。4090 如果极致优化,性价比甚至可以达到 H100 的 2 倍。 事实上,H100/A100 和 4090 最大的区别就在通信和内存上,算力差距不大。
这是一个好问题。先说结论,大模型的训练用 4090 是不行的,但推理(inference/serving)用 4090 不仅可行,在性价比上还能比 H100 稍高。4090 如果极致优化,性价比甚至可以达到 H100 的 2 倍。 事实上,H100/A100 和 4090 最大的区别就在通信和内存上,算力差距不大。
这是一个好问题。先说结论,大模型的训练用 4090 是不行的,但推理(inference/serving)用 4090 不仅可行,在性价比上还能跟 H100 打个平手。事实上,H100/A100 和 4090 最大的区别就在通信和内存上,算力差距不大。
这是一个好问题。先说结论,大模型的训练用 4090 是不行的,但推理(inference/serving)用 4090 不仅可行,在性价比上还能跟 H100 打个平手。 事实上,H100/A100 和 4090 最大的区别就在通信和内存上,算力差距不大。 H100A1004090 Tensor FP16 算力1979 Tflops312 Tflops330 Tflops ...