第8卷 第 7期 中国科技论文 CH1NA SCIENCEPAPER Vo1.8 NO.7 201 3年 7月 July 2013 基于GPGP U的LDP C解码 访存 优化 技术 原略超 ,张 洋,唐 川, 邢座 程 ( 国防科技 大学计算机 学院, 长沙 410O73) 摘 要:低 密度奇偶校验码 (1ow-density parity cheek,LDPC) 作为一类高性 能 的差 错控制...
当我们假定了访存优化是第一性原理之后,其实,从某种角度而言,其他的东西也可以被涵盖到访存优化这个大目录下面。IO优化本质上就是对最底层的存储结构-访存磁盘数据的优化。通信优化本质上就是尽可能地加快不同计算节点访问其他计算节点存储单元的速度。而计算优化,当访存已经优化地足够好了之后,计算其实就基本上已经没...
如前文所说,XLA在GPU backend上的主要收益来源是对访存密集型算子的自动Op Fusion CodeGen。催生我们做这些尝试的原因是,我们在实际业务中发现,社区XLA在最核心的CodeGen环节还有很大的问题和改进空间。例如下图为一个LayerNorm模块的前向计算子图,手工优化的话,它可以很容易被写成一个CUDA kernel,本应该是很适合编译...
当我们弄清楚 kernel 从 全局内存读取数据的路径,接下来就需要进一步分析优化手段了: 全局内存访存优化 基本逻辑是:首先判断这个 Kernel 的数据流路径,是否使用了 L1 cache,由此得出当前内存访问的最小粒度: 32 Bytes / 128 Bytes. 分析原始数据存储的结构,结合访存粒度,分析数据访问是否内存对齐,数据是否能合并访问。