如果用 4090,单卡 FP16 算力是跟 A100 差不多(330 vs 312 Tflops),但是内存带宽比 A100 低一半(1 vs 2 TB/s),内存容量更是差好几倍(24 vs 80 GB),计算梯度时需要使用的 TF32 算力也低一半(83 vs 156 Tflops),综合起来 4090 单卡的训练速度还比 A100 稍低(参考前面 LambdaLabs 的评测)。 就按照...
6、颇具成本效益而价格较便宜:RTX 4090 7、计算机视觉(CV)、预训练或机器翻译研究人员:4路RTX4090...
https://venturebeat.com/ai/what-nvidias-new-mlperf-ai-benchmark-results-really-mean/ https://blogs.nvidia.com/blog/2022/09/08/hopper-mlperf-inference/
[3]https://www.tomshardware.com/news/amd-instinct-mi200-chiplet-datacenter-gpu [4]https://www.amd.com/en/graphics/server-accelerators-benchmarks —完— 本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。