链接最近想试试在模拟器上跑GPU+Pytorch,然后用triton复现一下flashattention的优化设计。可惜,最终发现gpgpu-sim可以跑cuda程序但是不能直接跑pytorch,应该是缺少device抽象,cuda visible device无法看到。为了搞懂原理评估hack(就是理解gpgpu-sim-pytorch项目原理)难度,准备把芯片开发流程理解一下,看到中科院包老师RISC-V...