Google TPU 登场:AI 算力成本压到只剩OpenAI 的20% 据报导,相较于OpenAI 仰赖的英伟达GPU(如H100、A100),Google 的TPU 成本只有其五分之一。在同样或更优的AI 效能下,能大幅降低算力支出,让企业能以更低成本建构生成式AI 服务。目前一张英伟达H100 芯片成本约3,000 美元,但市价却高达2 万至3.5 万美...
加上Pod片间互连带宽,整个TPUv4 Pod的总算力达到1126 ExaFLOP(即大于每秒执行10的18次方BF16浮点计算);据传TPUv5可以扩展16384芯片,同时再提供足够的HBM内存和带宽(全部基于OCS光互连而非以太网RDMA),这种设计思想对于超大模型的并行训推性能及其TCO成本十分关键。
Google推出新一代定制AI芯片:TPU v4 在其I/O开发者大会上,Google今天宣布了其下一代定制的张量处理单元(TPU)人工智能芯片。这是TPU芯片的第四代产品,Google称其速度是上一版本的两倍。正如Google首席执行官桑达尔·皮查伊所指出的,这些芯片整合了4096个v4 TPU,一个pod就可以提供超过一个exaflop的AI计算能力。 Googl...
在谷歌的设计中,超级计算机的拓扑结构为:将 4x4x4(64)个 TPU v4 芯片互联在一起形成一个立方体结构(cube),然后再把 4x4x4 这样的 cube 用连在一起形成一个总共有 4096 个 TPU v4 的超级计算机。 TPU超级计算机(由 4096 个TPU v4组成)拓扑结构 在这样的拓扑中,...
5月19日,谷歌正式推出新一代人工智能ASIC芯片TPUv4,运算效能是上一代产品的2倍以上,由4096个TPUv4单芯片组成的pod运算集群,可释放高达1exaflop(每秒10的18次方浮点运算)的算力,超过了目前全球运算速度最快的超级计算机。 前段时间谷歌发布的5400亿参数语言模型PaLM就是用两个TPUv4 pods训练了大约64天得到的。
在谷歌的设计中,超级计算机的拓扑结构为:将4x4x4(64)个TPU v4芯片互联在一起形成一个立方体结构(cube),然后再把4x4x4这样的cube用连在一起形成一个总共有4096个TPU v4的超级计算机。TPU超级计算机(由4096个TPU v4组成)拓扑结构 在这样的拓扑中,物理距离较近的TPU v4(即在同一个4x4x4 cube中的芯片)...
在实际应用中,TPU v4主要与Pod相连发挥作用,每一个TPU v4 Pod中有4096个TPU v4单芯片,得益于其独特的互连技术,能够将数百个独立的处理器转变为一个系统,互连带宽在规模上是其他任何网络技术的10倍,每一个TPU v4 Pod就能达到1 exaFlOP级的算力,实现每秒10的18次方浮点运算。这甚至是全球最快的超级计算机...
相比较使用英伟达 A100 所创建的超级计算机,使用谷歌 TPUv4 构建的超级计算机速度快 1.2-1.7 倍,功耗降低 1.3-1.9 倍。 目前在人工智能计算领域,英伟达占据主导地位,超过 90% 的人工智能项目开发都使用其芯片。而谷歌试图在该市场上和英伟达竞争,TPU 的全称为 Tensor Processing Units,是谷歌自研的芯片。
TPU v4 SuperPod互连拓扑的优化,使其在大规模并行计算和TCO成本方面表现出色。TPU v4可以在单个Pod内扩展到4096颗芯片,实现高达1126 ExaFLOP的计算能力。对比Nvidia的算力密度和网络成本,TPU v4展现出更高的性能与成本效率。TPU v4的光互连网络(OCS)提供了低延迟、高带宽的互连解决方案,使得在大规模...
上周,谷歌在论文预印本平台arxiv上发表了其关于TPU v4的深入解读论文《TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings》(TPU v4:通过光互联可重配置的机器学习超级计算机,搭载硬件嵌入层加速)。该论文将于今年六月在ISCA 2023(International Symposium on ...