English | 中文

谷歌发布第六代名为Trillium人工智能芯片

  • 2024年05月23日 16:04
  • AI时代
上周二,谷歌发布了名为Trillium的第六代张量处理器TPU v6。这款芯片是谷歌在与GPU制造商英伟达(Nvidia)以及云提供商微软(Microsoft)和亚马逊(Amazon)的人工智能竞争中的最新武器,这些公司都有自己的人工智能芯片。

上周二,谷歌发布了名为Trillium的第六代张量处理器TPU v6。

这款芯片是谷歌在与GPU制造商英伟达(Nvidia)以及云提供商微软(Microsoft)和亚马逊(Amazon)的人工智能竞争中的最新武器,这些公司都有自己的人工智能芯片。

TPU v6将接替TPUv5芯片,后者有两种版本:TPUv5e和TPUv5p。该公司表示,Trillium芯片是“迄今为止性能最高、最节能的TPU”。



谷歌在加州山景城举行的IO大会上表示,Trillium芯片将能够运行当前的Gemini人工智能模型。

谷歌对芯片进行了全面改进。每片芯片的峰值计算性能提高4.7倍。它还将高带宽内存、内部带宽和芯片对芯片互连速度提高了一倍。

“我们通过比较Trillium TPU和Cloud TPU v5e的每块芯片的峰值计算性能(基于BF16)得出了4.7倍的数字。”谷歌发言人表示。BF16在TPU v5e上的性能为197 teraflops,而4.7倍的改进将使在Trillium上的峰值性能达到925.9 teraflops。谷歌TPU性能的大幅提升早该出现了。TPU v5e的BF16性能为197 teraflops,实际上比TPU v4的275 teraflops还有所下降。

Trillium芯片拥有下一代HBM内存,但没有具体说明是HBM3还是HBM3e,英伟达在其H200和Blackwell GPU中使用了HBM3e。

TPU v5e上的HBM2容量为16GB,因此Trillium将拥有32GB的容量,这在HBM3和HBM3e中都可用。HBM3e可以提供最多的带宽。

多达256个Trillium芯片可以在服务器仓(POD)中配对,芯片间通信比TPU v5e提高了两倍。谷歌没有透露芯片间的具体通信数值,但它们可能达到3200 Gbps,是TPU v5e的1600 Gbps的两倍。

谷歌在一篇博客文章中表示,Trillium TPU的能效也比TPU v5e高67%。

Trillium正在取代TPU品牌名称,并将成为未来几代芯片的品牌。Trillium是根据植物(延龄草)的名字命名的,大家不要与AWS的人工智能训练芯片Trainium混淆。

谷歌显然在加紧其人工智能芯片的升级换代,第六代TPU距离TPU v5芯片发布还不到一年。TPU v4于2020年推出,在TPU v5发布之前,徘徊了三年。TPU v5的开发本身就陷入了争议。谷歌声称,人工智能代理帮助规划TPU v5芯片的速度比人类专家快了大约6个小时。导致与TPU v5人工智能设计项目有关的研究人员被解雇或离职。

服务器仓(POD)将容纳256个Trillium芯片,人工智能芯片的通信速度将比类似的TPU v5设置快两倍。为更大的AI模型提供所需的可扩展性。这些POD可以组合成更大的集群,并通过光网络进行通信。

谷歌表示:“Trillium TPU可以扩展到数百个pod,通过每秒数PB级的数据中心网络连接超级计算机中的数万个芯片。”

一种名为Multislice的技术将大型人工智能工作负载串在一个大型集群中的数千个TPU上。这确保了TPU的高正常运行时间和功率效率。

该芯片拥有第三代SparseCores,这是一种更接近高带宽内存的中间芯片,大多数人工智能运算都是在高带宽内存中进行的。SparseCores使芯片能够处理更接近内存中的数据,并支持AMD,英特尔和高通正在研究的新兴计算架构。

通常,数据必须从内存移动到处理单元,这会消耗带宽并产生阻塞点。Sparse计算模型通过将处理单元移动到更靠近内存集群的位置来释放网络带宽。

谷歌表示:“TrilliumTPU可以更快地训练下一波基础模型,并以更低的延迟和成本为这些模型提供服务。”

Trillium也有用于矩阵数学的TensorCores。Trillium芯片是为人工智能设计的,不会运行科学应用程序。该公司最近宣布了其首款CPU Axion,它将与Trillium配合使用。

Trillium芯片将成为谷歌自主研发的人工智能超级计算机设计的一部分,该设计针对其TPU进行了优化。

该设计融合了计算、网络、存储和软件,以满足不同的人工智能消耗和调度模型。“日历(Calendar)”系统满足任务应该何时开始的硬性期限,而“Flex start”模型提供任务何时结束和交付结果的保证。

超级计算机包括一个软件栈和其他工具,用于开发、优化、部署和编排用于推理和训练的人工智能模型。这包括JAX, PyTorch/XLA和Kubernetes。

超级计算机将继续使用GPU优化的互连技术,例如基于Nvidia H100 GPU的Titanium卸载系统和技术。

预计Trillium芯片将在谷歌云上提供,但谷歌没有发布可用日期。它将是一款顶级产品,比TPU v5的价格更高。



云计算中传统GPU的高价格可能会使Trillium对客户产生吸引力。已经在使用Vertex(谷歌云中的人工智能平台)提供的人工智能模型的客户也可能转向Trillium。

谷歌一直将其TPU作为英伟达GPU的人工智能替代品。谷歌发布了一篇研究论文,将TPU的性能与英伟达的同类GPU进行了比较。TPU最初是为谷歌自有模型设计的,但该公司正试图更好地映射到开源模型,包括Gemini的一个分支Gemma,以吸引更多的生态开发者和用户。



相关推荐