3.熟悉cpp (会CUDA、能根据数据计算量编写核函数、多线程处理、),python编程,熟悉pytorch,onnx、tensorrt、常用的分布式技术、会写分布式训练代码、能根据前沿论文(包括没开源的idea去代码实现)。加速多针对transformer相关。因为卷积神经网络这种加速不需要博士来调API。。。4,手写CUDA加速,算子适配,主要是在x86,arm,...