近日,阿里云机器学习平台PAI和上海交通大学冷静文老师团队合作的论文《图神经网络统一图算子抽象uGrapher》被ASPLOS 2023录取。 为了解决当前图神经网络中框架中不同的图算子在不同图数据上静态kernel的性能问题,uGrapher通过将所有图算子抽象为统一的中间表达形式,解耦图算子的计算和调度,并定义了在GPU上优化图算子的设计...
Lucid: A Non-intrusive, Scalable and Interpretable Scheduler for Deep Learning Training Jobs 基于可解释模型的非侵入式深度学习工作负载调度器。 *FLAT: An Optimized Dataflow for Mitigating Attention Bottlenecks 为attention设计了定制的数据流优化,conv的优化不适用于数据复用率低的activation-activation算子 NNSmit...
Like its predecessors, ASPLOS 2023 invites papers on ground-breaking research at the intersection of the ASPLOS disciplines: architecture, programming languages, operating systems, and related areas. Non-traditional topics are especially encouraged. The importance of cross-cutting research continues to grow...
简介:近日,阿里云机器学习平台PAI和上海交通大学冷静文老师团队合作的论文《图神经网络统一图算子抽象uGrapher》被ASPLOS 2023录取。 近日,阿里云机器学习平台PAI和上海交通大学冷静文老师团队合作的论文《图神经网络统一图算子抽象uGrapher》被ASPLOS 2023录取。论文通过抽象统一的的高性能图算子接口来自适应探索它们在不同...
ASPLOS'23 系统顶会论文解析:Plugsched:安全高效的多场景调度器热升级阿里云基础软件/达摩操作系统实验室的研究成果,"Efficient Scheduler Live Update for Linux Kernel with Modularization",已在2023届28届 Architectural Support for Programming Languages and Operating Systems (ASPLOS'23) 上荣登长论文...
GRACE: A Scalable Graph-Based Approach to Accelerating Recommendation Model Inference 要解决的问题是深度推荐模型(DLRM)在inference过程中的性能瓶颈,尤其是内存带宽不足导致的latency和throughput问题。随着DLRM模型越来越大,离散embedding数量增多,问题变得更为复杂。现有解决方案或没有充分考虑CPU+GPU的...
近日,阿里云机器学习平台PAI和上海交通大学冷静文老师团队合作的论文《图神经网络统一图算子抽象uGrapher》被ASPLOS 2023录取。论文通过抽象统一的的高性能图算子接口来自适应探索它们在不同图数据集上的最佳并行执行策略, 这是首个在图神经网络上利用自适应的并行策略,在不同图数据和不同图算子中探索高性能计算优化的...
ShakeFlow: Functional Hardware Description with Latency-Insensitive Interface Combinators. Sungsoo Han*, Minseong Jang*, and Jeehoon Kang (*: co-first authors with equal contributions). ASPLOS 2023 (to appear, submission #43 of the Spring cycle). ...
近日,阿里云机器学习平台PAI主导的论文《图神经网络统一图算子抽象uGrapher》被ASPLOS 2023录取。论文通过抽象统一的的高性能图算子接口来自适应探索它们在不同图数据集上的最佳并行执行策略, 这是首个在图神经网络上利用自适应的并行策略,在不同图数据和不同图算子中探索高性能计算优化的研究工作。
IPADS实验室一篇论文在经过秋季周期修改后,提前被ASPLOS 2023接收。该论文关注大型虚拟机实例在众核机器上运行的问题,这些机器有深度内存层次结构。传统研究侧重优化虚拟化环境的同步原语开销和解决传统NUMA架构的抢占问题。然而,论文指出,缺乏虚拟机监控器内部运行时状态导致新的可扩展性问题,如物理CPU实时...