之前TPUv1讨论的主要是推理用的芯片,所以相对来说架构没有那么复杂;这个paper主要讨论的v2跟v3都是用来训练的。但是v1跟v2还是有很多相似之处的。 1~2个大核,比起CPU来说少很多 一个大的2D (128x128 或者 256x256)的systolic array(这里有具体解释https://fburl.com/co1ud6md) 用8bit或者16bit而不是...
下图比较了TPUv1、TPUv3和TPUv4i在生产推理应用上相对于TPUv2的性能和perf/TDP。TPUv3 和 TPUv4i 都比 TPUv2 快 1.9 倍以上,TPUv1 的速度大概是 TPUv2 的 70% 左右。更大、更热的 TPUv2/v3 芯片有两个内核,而较小的 TPUv4i 芯片有一个内核,这使 TPUv4i 芯片在 perf/TCO 和部署方面更胜一筹。
下图比较了TPUv1、TPUv3和TPUv4i在生产推理应用上相对于TPUv2的性能和perf/TDP。TPUv3 和 TPUv4i 都比 TPUv2 快 1.9 倍以上,TPUv1 的速度大概是 TPUv2 的 70% 左右。更大、更热的 TPUv2/v3 芯片有两个内核,而较小的 TPUv4i 芯片有一个内核,这使 TPUv4i 芯片在 perf/TCO 和部署方面更胜一筹。
而TPU 芯片之间使用 ICI(Inter-Core Interconnect),在TPUv2 时这个带宽就到了 496Gb/s,每片拥有 4 个连接(形成 2D torus 结构),而 v4 每片拥有 6 个连接(3D torus 结构) 1024 台 TPU node 可以组成 TPU pod(4096 个 TPU chip,算力超过 1.1 exaflops),这个 3D torus 可以获得类似 16x16x16 的结构 之...
谷歌:谷歌为AI ASIC芯片的先驱,于15年发布第一代TPU(ASIC)产品,大幅提升AI推理的性能;17年发布TPU v2,在芯片设计层面,进行大规模架构更新,使其同时具备AI推理和AI训练的能力;谷歌TPU产品持续迭代升级,21年发布TPU v4,采用7nm工艺,峰值算力达275TFLOPS,性能表现全球领先。
贝茨的代表律师凯里・蒂姆伯斯(Kerry Timbers)表示,谷歌在未经许可或许可的情况下故意将贝茨的架构纳入其 TPU v2 和 v3 处理器中,从而故意侵犯了其相关专利。TPU 是谷歌在外部帮助下设计的定制人工智能加速器芯片,可在其云服务中使用,以加速神经网络的训练及其决策。
TPUv1 是谷歌第一代 DNN DSA(图 1 左),能够处理推理任务。近年来,模型训练的规模逐渐增大,所以一种新的改进是添加一个片到片的定制互连结构 ICI,使得搭载 TPUv2 的超级计算机芯片数量可多达 256 个。 与TPUv1 不同,TPUv2 每个芯片有两个 TensorCore。芯片上的全局线不会随着特征尺寸的缩小而缩小 ,因此相...
谷歌的张量处理单元(Tensor Processing Unit,后文简称TPU)是完成较早,具有代表性的一类设计,基于脉动阵列设计的矩阵计算加速单元,可以很好的加速神经网络的计算。本系列文章将利用公开的TPU V1相关资料,对其进行一定的简化、推测和修改,来实际编写一个简单版本的谷歌TPU,以更确切的了解TPU的优势和局限性。
Mem Mem Mem Bdw Peak Platform Unit Version Type (GB) (GB/s) FLOPS CPU 1 VM Skylake DDR4 120 16.6 2T SP† GPU 1 V100 (DGX-1) Pkg (SXM2) HBM2 16 900 125T 1 Board TPU (8 cores) v2 HBM 8 2400 180T TPUv3 8 cores v3 HBM 16 3600* 420T...
Along with six real-world models, we benchmark Google's Cloud TPU v2/v3, NVIDIA's V100 GPU, and an Intel Skylake CPU platform. We take a deep dive into TPU architecture, reveal its bottlenecks, and highlight valuable lessons learned for future specialized system design. We also provide a...