首先了解GPU的基本架构和特点,为什么要使用GPU进行并行化的加速;学习基础的CUDA C语法,使用CUDA语言编写一个简单的例子,通过例子的实际运行,直观感受GPU加速的魅力 02 接着学习NVIDIA官方提供的矩阵运算库cuBLAS,深度神经网络基元库cuDNN和深度学习推理框架TensorRT,通过调用官方的高度优化的库,快速的搭建自己的网络架构...
第18任务: 【视频】CUDA Stream默认流的表现 查看课程 任务列表
CUDA入门与深度神经网络加速 了解详情 CUDA核心的并行运算操作,涵盖主流的模型加速工具。 人工智能基础 机器学习 高级 机器人中的数值优化 了解详情 详解各类数值优化算法的原理、技术细节和工程细节 人工智能基础 智能机器人 基础 新课 机器人学基础 了解详情 详解机器人学中的数学基础知识,理论与实践并重。
深度学习物体检测, CUDA入门与神经网络加速, 自动驾驶环境感知, ROS理论与实践, 多传感器融合定位, 多传感器融合感知, 激光slam从理论到实践, 三维点云处理, 视觉slam VIO开源代码解析, 视觉slam理论与实践, 移动机器人运动规划, 从零开始手写vio, 概率图模型, 语音信号处理, 深度学习理论与实践, 计算机视觉应用基...
5. 有并行编程经验或者熟悉CUDA编程者优先; 6. 有TensorRT优化加速经验者优先。 普通的理工科在校生,熟练掌握以上6类基础知识需要多少多长时间?根据深蓝学院的培养经验,少则8个月,多则1年半。3年来,数千位深蓝学员已陆续入职各大自动驾驶/机器人企业,他们扎实的基础功底备受企业青睐。
利用这个方法去做了一系列的相关实验,结果如图8所示。和当时最主流的方法进行了比较,发现本文方法在速度和精度的平衡非常好,虽然精度可能稍微差一些,但是已经超越了几乎大多数的方法,速度使用C++带单核CPU可以达到260Hz,如果是CUDA则可以达到21kHz,对应图像分辨率为640 乘480。
第2任务: 助教分享-Instroduction to CUDA Programming Model 查看课程 任务列表
CUDA核心的并行运算操作,涵盖主流的模型加速工具cuDNN与TensorRT。 模型压缩与部署 基础 生成式预训练语言模型:理论与实战 正在报名 从0到1实现mini-ChatGPT,Attention机制与Transformer架构全面剖析 自然语言处理 基础 NeRF与3DGS基础及常见算法解析 正在报名 基础知识与前沿算法并重,算法原理与代码实践融合讲解...