1. 基于自研内核架构,进行kernel级高性能算子库开发与性能优化 2. 和编译器团队紧密配合,针对硬件体系结构对算法进行分析,设计,和优化 3. 对现有CUDA程序进行改写和适配 岗位要求: 1. 计算机/电子工程/数学/物理 2. 精通数据级并行程序设计和GPGPU编程,例如CUDA、OpenCL ...
加速多针对transformer相关。因为卷积神经网络这种加速不需要博士来调API。。。4,手写CUDA加速,算子适配,主要是在x86,arm,架构的芯片上做大模型推理加速。根据不同芯片的算力优化大模型在边缘端上推理加速。要自己适配一些onnx和tensorrt不支持的算子。5,能创新一些新的算法加分。像常规的知识蒸馏模型剪枝量化加分...