在指令集架构技术层面,利用 RISC-V 架构优异的开放性和灵活性,玄铁很早定制了面向 AI 应用的指令集扩展。其提出的矩阵运算(Matrix)扩展扩展指令集、优化大模型核心算子 GEMM,可以加速 AI 推理及训练,提升端侧 AI 能效。在处理器上,玄铁 C907 首次实现了 Matrix 扩展,较传统方案提速 15 倍。升级版 C920 ...
在编译器上,DLA的编译器集成了RVV编译器和RISC-V通用编译器,编译器可以将多个节点(nodes)整合到一个RVV内核中,优化硬件计算效率。DLA硬件模块直接通过运行时和编译器与高层应用交互。DLA特别适用于深度学习训练、推理优化等应用场景。 在应用上,RISC-V已经在其产品中实现了从功能级别控制到芯片与系统级别控制再到数据...
在2021年谷歌编程之夏(Google Summer of Code, GSoC)中,笔者使用RISC-V 向量扩展的Intrinsic函数优化了OpenCV DNN模块中多个函数,提高了OpenCV在RISC-V平台上的深度学习推理性能。本文将简要介绍OpenCV DNN模块的架构和现有的RISC-V平台优化实现方式,之后给出使用Intrinsic函数优化DNN函数的思路,并举例说明实现方法。
在2021年谷歌编程之夏(Google Summer of Code, GSoC)中,笔者使用RISC-V 向量扩展的Intrinsic函数优化了OpenCV DNN模块中多个函数,提高了OpenCV在RISC-V平台上的深度学习推理性能。 本文将简要介绍OpenCV DNN模块的架构和现有的RISC-V平台优化实现方式,之后给出使用Intrinsic函数优化DNN函数的思路,并举例说明实现方法。
RISC-V指令集的精细设计与实现,对于RISC-V处理器的整体设计与开发而言,具有深远的影响。面对多样化的应用场景与需求,选择与优化适当的指令集配置显得尤为关键,因为它直接关系到处理器的性能表现与功耗控制。同时,控制与状态寄存器的设计同样不容忽视,它们在处理器特权级别的管理以及系统整体控制中扮演着举足轻重的...
Andes 团队使用 Deeplite 制作的经过优化的 MobileNetv1-0.25x INT8 模型,以了解利用模型优化可以为每次推理节省多少电力。您可以在下图中看到结果,与 TFLite Micro 参考模型相比,我们证明 RISC-V CPU 内核上的推理延迟减少了 15%(以每次推理的周期数衡量),精度提高了 2%。这意味着什么?经过 Deeplite 优化的...
第二,呈现多样化需求。不同场景产生不同的算力需求,相应的资源约束也不同。比如云端推理算力要考虑满血版大模型的高效部署,端侧应用场景则往往会部署不同容量的裁剪版。因此,RISC-V+AI迎来发展新契机。AI加速器需要考虑与CPU的协同设计,需要能根据不同需求实现高效定制。RISC-V的灵活性优势若能被充分发挥,有...
江原科技、物奇微电子、忆芯科技、速显微等多家芯片企业进行了RISC-V芯片新品发布仪式,涉及AI推理、高性能网络、SSD主控、GPU SoC等方向。中科重德、泰芯、矽昌、匠芯创、聪链等企业则展示了RISC-V芯片在机器人、工控、智能终端等行业的落地应用。▌推理算力暴增!DeepSeek为国产芯片带来新机遇 北京开源芯片研究院...