从x86、Arm到RISC-V,都在制定面向矩阵(Matrix)指令集方向的扩展,因为GAI应用的大部分典型负载的核心运算都需要使用矩阵计算。2021年,Arm宣布在ARMv9-A架构中引入Scalable Matrix Extension(SME)指令集扩展;2023年初,英特尔正式推出了第4代英特尔至强可扩展处理器,集成了Advanced Matrix Extensions(AMX)指令集。
1.https://www.theregister.com/2024/12/04/riscv_ai_champion_investment/ 2.https://venturebeat.com/data-infrastructure/ubitium-tackles-edge-ai-and-more-with-new-universal-processor/ 3.https://riscv.org/blog/2024/11/stream-computing-risc-v-matrix-extension-open-source-project-upgrades-to-versi...
RVV's flexibility enables only 1D vector registers as input-output for matrix operations, leading to the "Integrated" Matrix Extension. Meanwhile, ARM SME and Intel AMX introduce a 2D "tiled" matrix register, which, in RISC-V, corresponds to the "Attached" Matrix Extension. Spacemit's ...
2023年底,RISC-V国际基金会同时成立了2个矩阵指令集扩展技术组(Attached Matrix Extension TG和Integrated Matrix Extension TG),计划用一至两年的时间完成新指令集的制定,其目的就是要加速矩阵运算,从而提高机器学习和AI应用的性能。就在最近,希姆计算在RISC-V美国峰会上发布了其RISC-V矩阵扩展开源项目的最新0....
1.https://www.theregister.com/2024/12/04/riscv_ai_champion_investment/ 2.https://venturebeat.com/data-infrastructure/ubitium-tackles-edge-ai-and-more-with-new-universal-processor/ 3.https://riscv.org/blog/2024/11/stream-computing-risc-v-matrix-extension-open-source-project-upgrades-to-...
【阿里巴巴达摩院高级技术专家当选RISC-V国际基金会AME TG主席】财联社3月11日电,阿里巴巴达摩院高级技术专家赵思齐正式当选RISC-V国际基金会AME TG主席。玄铁发起并持续引领AME社区建设。自2022年起,玄铁就专注于Matrix的研究,设计并开源了Attached Matrix Extension方案,并在玄铁CPU IP上做了硬件实现。在过去一年中...
2023年底,RISC-V国际基金会同时成立了2个矩阵指令集扩展技术组(Attached Matrix Extension TG和Integrated Matrix Extension TG),计划用一至两年的时间完成新指令集的制定,其目的就是要加速矩阵运算,从而提高机器学习和AI应用的性能。就在最近,希姆计算在RISC-V美国峰会上发布了其RISC-V矩阵扩展开源项目的最新0.5版本,...
matmul Matrix multiplication demo implemented using intrinsic Case name can be used to make and run a specified demo. evaluation results We use qemu and cpf to count the number of instructions of the program. Compared with vector extension 1.0, RISC-V Matrix Extension has an improvement of 5.28...
在TPUv1版本的硬件架构图上,我们可以看到Matrix Multiply模块提供了每时钟64K次操作的超大算力,紧随其后的是Activation(激活)、Normalize/Pool(归一化/池化)等运算。到了TPUv2,通用的Vector单元取代了v1版本中activation pipe中的固定功能。 图八:TPUv1到TPUv2数据通路的转变 ...
从技术上来说,RISC-V 也非常适合新型的 AI 计算,RISC-V 的向量扩展(V-extension)能够有效处理大规模并行运算,满足 AI 计算的高效性需求。RISC-V 的开放架构与硬件加速模块可以协同工作,提升 AI 任务的执行效率。通过与 AI 算法的深度结合,RISC-V 架构可以设计专用硬件加速单元,实现对特定 AI 模型的优化。