使用OCS 可以以较低的成本扩展 TPUv4 pod:OCS 和光纤成本小于 TPUv4 pod 总资本成本的 5%,其运行功率小于 pod 总功率的 3%。TPUv4 OCS 超级计算机的资本和运营成本大大低于使用 Infiniband 等分组交换机的替代方案[18]。 2.3 可编程 ICI 协议 TPUv4 的 ICI 协议设计为可编程,这样软件就能解决可重新配置性和...
因此,每个 Cube 会连接到 6×16÷4=48 个 OCS 上。这 48 个 OCS 一共连接来自 64 个 Cube 的 48 对光缆,总共并联 4096 个 TPU v4 芯片。所以,如果想要搭建一个 TPU v4 集群,就需要购置 4096 片 TPU v4 和 48 个 OCS 光互联交换器,因此成本相当之高,而幸运的是,谷歌最不缺的就是钱。当然,在当...
因此,每个 Cube 会连接到 $6 \times 16 \div 4 = 48$ 个 OCS 上。这 48 个 OCS 一共连接来自 64 个 Cube 的 48 对光缆,总共并联 4096 个 TPU v4 芯片。所以,如果想要搭建一个 TPU v4 集群,就需要购置 4096 片 TPU v4 和 48 个 OCS 光互联交换器,因此成本相当之高,而幸运的是,谷歌最不缺的...
光互连在高性能计算中的使用也并非新闻,而谷歌在TPU v4中的主要突破是使用可重配置的光互连(即加入光路开关,optical circuit switch OCS)来快速实现不同的芯片互联拓扑。换句话说,芯片之间的互联并非一成不变的,而是可以现场可重配置的。这样做可以带来许多好处,其中最主要的就是可以根据具体机器学习模型来改变...
因此,每个 Cube 会连接到6×16÷4=48个 OCS 上。这 48 个 OCS 一共连接来自 64 个 Cube 的 48 对光缆,总共并联 4096 个 TPU v4 芯片。所以,如果想要搭建一个 TPU v4 集群,就需要购置 4096 片 TPU v4 和 48 个 OCS 光互联交换器,因此成本相当之高,而幸运的是,谷歌最不缺的就是钱。当然,在当前...
TPUv4 SuperPod by Racks 对比Pod互连网络的灵活性和容错性;TPU SuperPod的Slices之间的光互连部分是基于一款“可重配置的OCS Switch”,这种光互连Switch的重要性就在于HA高可靠;简单来说,倘若发现部分芯片或Slice ICI网络出错或者失效,则OCS可以动态调整互连和路由,从而绕过失效的部分,不影响整体功能(或许存在微小的性...
Pod 管理器:集群级软件服务,根据 Borg 的调度决定启动 OCS xconnect 设置,从而管理多cube连接。 图1:通过 TPUv'4 cube的可配置性和容错 ICI 路由,作业规模的可用性得到了大规模提高。 libtpunet:一个软件库,用于为每个 TPUv4 用户作业设置所需的 ICI 网络拓扑。
光互连在高性能计算中的使用也并非新闻,而谷歌在 TPU v4 中的主要突破是使用可重配置的光互连(即加入光路开关,optical circuit switch OCS)来快速实现不同的芯片互联拓扑。换句话说,芯片之间的互联并非一成不变的,而是可以现场重配置的。这样做可以带来许多好处,其中最...
Google发布了最新的名为Trillium的第六代张量处理器TPU v6,其中,2021年5月发布的TPU v4首次引入Palomar OCS(Optical Circuit Switches,光路交换机),与传统IB交换机组网方案或以太网交换机组网方案相比,OCS方案具有低时延、低功耗等特点,与信号速率/调制格式/波长等无关的全光透明交换,支持速率平滑升级、部署更快、...
Google发布了最新的名为Trillium的第六代张量处理器TPU v6,其中,2021年5月发布的TPU v4首次引入Palomar OCS(Optical Circuit Switches,光路交换机),与传统IB交换机组网方案或以太网交换机组网方案相比,OCS方案具有低时延、低功耗等特点,与信号速率/调制格式/波长等无关的全光透明交换,支持速率平滑升级、部署更快、...