从谷歌TPU 看AI芯片的将来

发布时间：2023-04-17 09:31:24 所属栏目：数码来源：

导读：上周,谷歌在 arxiv上发表论文,深度解读了 TPU v4《TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings》（TPU v4：通过光互联可重配置的机器学习超级计

上周,谷歌在 arxiv上发表论文,深度解读了 TPU v4《TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings》（TPU v4：通过光互联可重配置的机器学习超级计算机，搭载硬件嵌入层加速）。

TPU v4从一开始设计时，其目标就是极高的可扩展性，可以有数千个芯片同时加速，从而实现一个为了机器学习模型训练而设计的超级计算机。

在谷歌的设计中，超级计算机的拓扑结构为：将4x4x4（64）个TPU v4芯片互联在一起形成一个立方体结构（cube），然后再把4x4x4这样的cube串联在一起形成一个总共有4096个TPU v4的超级计算机。

如果数据互联效率不够高的话，很多时候芯片都在等待来自其他芯片的数据到达以后开始计算，这样就形成了效率浪费。为了避免这样“芯片等数据”的情形出现，就必须确保芯片之间的互联能拥有高带宽，低延迟。而这种光互连对于需要物理距离较远的高端芯片就理所当然地成为了光纤通信的首选。

光互连在高性能计算中的使用也并非新闻，而谷歌在TPU v4中的主要突破是使用可重配置的光互连（即加入光路开关，optical circuit switch OCS）来快速实现不同的芯片互联拓扑。

换句话说，芯片之间的互联并非一成不变的，而是可以现场重复配置的。这样做可以带来许多好处，其中最主要的就是可以根据具体机器学习模型来改变拓扑，以及改善超级计算机的可靠性。为了实现这一目标，研究人员开发了一种基于神经网络的方法，该方法可以通过学习机器学习模型来自适应性地调整拓扑结构。

（编辑：银川站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

首发价699元，小米上线	真的假的？研究称智能
索尼决定终止PS5多人模	不叫Galaxy Z Fold4 消