我们通过转置算子的优化,一步一步的揭开了CUDA优化的面纱。算子一般情况下分为访存和计算两个部分,由于现代设备计算指令的延迟远远低于访存类指令的延迟,因此访存是我们优化的重点,针对于计算量较大的算子,我们可以将计算部分拆分到访存指令之间,已达到延迟覆盖(Latency Hidding)的目的。CUDA访存优化一般分为以下几个步...
DeepRoute_Lab 1声望3粉丝 深圳元戎启行科技有限公司(DEEPROUTE.AI)是一家专注于研发 L4级自动驾驶技术的科技公司,聚焦出行和同城货运两大场景,拥有“元启行”(Robotaxi自动驾驶乘用车)和“元启运”(Robotruck自动驾驶轻卡)两大产品线。 « 上一篇 DeepRoute Lab | CUDA算子优化:转置篇 ...