有关这种微架构行为的详细信息,可以在AMD CDNA3的ISA文档以及rocProfiler-compute文档中找到。vL1D 寻址器停顿研究人员在该算法设计中观察到了18.61%的数据等待停顿率来自于向量L1缓存。数据的读写负载平衡大大减少,从8kB的读取操作和27B的写入操作,转变为109B的读取操作,468B的写入操作和202B的原子操作的组合。
最新的Linux补丁包含一个未发布的AMD的新目标,它具有与Aldebaran 'GFX90a'显卡相似的ISA。该芯片可以为AMD的下一代显卡提供动力,并支持所有以数据为中心的功能,例如MFMA(矩阵融合乘加)、全速率FP64和打包FP32操作。其他功能还包括专门针对CPU+显卡内存空间集成的XNACK采用基于全新CDNA3架构的4-GCD设计。每个芯片标准...
由于AMD CDNA3架构并不支持类似Graphcore的片上(on-chip)洗牌操作(在2023年已经将PopART[12] & PopRT的Remapping操作进行抽象与泛化),而这一特性已在NVIDIA H100/H200/B200中得到了支持,并通过高效的SM<->SM片上通信实现。 因此,在AMD 开源解决方案中,如何以低开销方式在块(block)之间优化数据布局将是一个非常...
MI300X及其CDNA架构专为大型语言模型和其他先进AI模型而设计,将12个5nm chiplets封装在一起,共有1530亿颗晶体管。这款全新AI芯片舍弃了APU的24个Zen内核和I/O芯片,转而采用更多的CDNA 3 GPU和更大的192GB HBM3,提供5.2 TB/s的内存带宽和896GB/s的无限带宽。MI300X的HBM密度是英伟达H100的2.4倍,带...
AMD披露最新AI芯片路线图,采用CDNA 4架构的MI350系列2025年上市,8卡MI355X的AI峰值算力达到74PFLOPS,MI400系列将采用更先进的CDNA架构。 更高的数据中心算力,离不开先进的网络解决方案。AMD发布业界首款支持UEC超以太网联盟的AI网卡Pensando Pollara 400、性能翻倍提升的Pensando Salina 400 DPU。
从 Tahiti 到 2021 年的 Cezanne,GCN 经历了大量演变,但保留了其可识别的计算单元结构。因此,GCN 是历史最悠久的图形架构之一。即使在今天,GCN 的 DNA 仍然延续在 AMD 面向计算的 CDNA GPU 中。CDNA 线路取消了部分 GCN 的图形功能,将重心转向 FP64,但仍然是一个可识别的 GCN 衍生产品。
MI300X 及其 CDNA 架构专为大型语言模型和其他先进 AI 模型而设计,将 12 个 5nm chiplets 封装在一起,共有1530 亿颗晶体管。 这款全新 AI 芯片舍弃了 APU 的 24 个 Zen 内核和 I / O 芯片,转而采用更多的 CDNA 3 GPU 和更大的192GB HBM3,提供 5.2 TB / s 的内存带宽和 896GB/s的无限带宽。
来自AMD 的CDNA ISA 文档,说明了单独的累加器寄存器文件 CDNA2 通过删除单独的累加器 RF 对此进行了改进,而是选择提供一个大的统一寄存器文件。以前在 MI100 中,每个 SIMD16 单元都有 256 个“架构”矢量通用寄存器 (VGPR),而矩阵核心单元有另外 256 个“累加器”寄存器。MI200 将这两者结合到一个具有 512 ...
AMDInstinct™ MI300X 独立 GPU,采用最新一代的 AMD CDNA™ 3 架构,为复杂的人工智能和高性能计算应用带来了前所未有的效率和强大性能。这款 GPU 内置了 304 个高效率计算单元,以及专为 AI 设计的多项功能,如对新数据类型的支持、图像和视频解码等,还搭载了创纪录的 192 GB HBM3 内存,确保其作为 GPU ...
来自AMD 的CDNA ISA 文档,说明了单独的累加器寄存器文件 CDNA2 通过删除单独的累加器 RF 对此进行了改进,而是选择提供一个大的统一寄存器文件。以前在 MI100 中,每个 SIMD16 单元都有 256 个“架构”矢量通用寄存器 (VGPR),而矩阵核心单元有另外 256 个“累加器”寄存器。MI200 将这两者结合到一个具有 512 ...