Part 1: SAXPY 用CUDA 实现一个在 GPU 上运行的 SAXPY 程序. 输入两个数组 X, Y 以及一个常数 scale, 输出一个数组 Z, 并且 Z[i] = scale * X[i] + Y[i]. 直接访问和存储 global memory 就行. __global__voidsaxpy_kernel(intN,floatalpha,float* x,float* y,float* result){intindex = b...
发现知乎还没有CMU-15418的Assignment完整攻略 怪不得没人写,这Asst2工作量是真的。。。6.s081的OS页表和cs144的TCP协议栈都没这个劲大 本篇题解的内容包括但不限于: 在WSL2 in win11系统中完成CUDA的toolkit安装,程序编译、调试和profiling; 对Asst2题给Performance Target Renderer的逆向工程(典中典之做题家...
CMU15418(1)- 背景知识 本系列是Prof Kayvon Fatahalian2017年夏季学期在清华开的一门课程,对应的CMU课程是15-418,可以在bilibili找到原始视频。 这门课我是2020年学习的,现在把一部分当时的学习笔记上传博客保存。 不同层次上的并行计算 指令级并行(ILP, e.g. superscalar):由CPU硬件设计实现,在一个时钟周期内...
800 此时的指令还是顺序执行(in order execution)的,但图中可以看到有很多wait的阶段,导致这种现象的原因之一是指令间存在数据依赖,例如instr2需要instr1的结果,因此在instr1执行完成前,instr2还是要等待;还有的情况就是代码中有if分支语句,此时也不能提前执行后面的语句。 在奔腾II后,为了缓解该现象,Intel在CPU中引...
用来衡量P个cores的加速性能,公式为speedup = 1个core的执行时间/P个cores的执行时间。 为了探究有那些因素会影响并行的效率,老师开展了5个有意思的实验: 1个人计算16个卡片上的数字,花费56秒 2个人计算16个卡片上的数字,每个人8个卡片,花费34秒 4个人计算16个卡片上的数字,每个人的卡片数不一样,有的人大于...
此时的指令还是顺序执行(in order execution)的,但图中可以看到有很多wait的阶段,导致这种现象的原因之一是指令间存在数据依赖,例如instr2需要instr1的结果,因此在instr1执行完成前,instr2还是要等待;还有的情况就是代码中有if分支语句,此时也不能提前执行后面的语句。
首先是本科CS剩余的两门system的课 15411, 15418,然后是高阶system课 15721 (这门课我试听过,真的...
Assignment 1 for the CMU 15418 Course C++2533 assignment2assignment2Public C++1335 assignment4-nbodyassignment4-nbodyPublic C++33 assignment4assignment4Public Assignment 4 for the CMU 15418 Course C++212 assignment3assignment3Public C++213 asst3-s18asst3-s18Public ...
cmu15418s24 / asst1 Public Notifications Fork 3 Star 0 License MIT license 0 stars 3 forks Branches Tags Activity Star Notifications cmu15418s24/asst1 main BranchesTags Code Folders and files Latest commit History7 Commits common prog1_mandelbrot_threads prog2_vecintrin prog3_...
cmu15418查看原帖2 评论 相关推荐 02-10 11:35 蚌埠坦克学院 测试开发 测试理论总结6-面试测试常问用例 Test知识总结 点赞 评论 收藏 分享 02-14 19:34 已编辑 哈尔滨工业大学(威海) Java 【面经】货拉拉 深圳 Java日常实习 时间线24.11.12 一面24.11.13 二面24.11.15 口头oc ...