作者: DeepSeek 表示,自己发现并使用了未在英伟达官方文档中披露的 PTX 指令 ld.global.nc.L1::no_allocate.L2::256B,由此可以获得“极致性能”。 从指令来推测,它似乎是一个特殊的 PTX 指令,用于从全局内存加载数据,绕过 L1 缓存,以 256 字节的事务大小通过 L2 缓存处理。 这种指令的使用反映了 DeepSeek 对 GPU 内存层次结构的深度理解,旨在...