一窥Habana的推理和训练神经处理器

Sharer: 机器之心 December 16, 2019 at 3:17 am

Link Share :https://www.jiqizhixin.com/articles/2019-12-16-3 - via RSS

Habana Labs是市面上为数不多的，有产品出货的独立AI初创公司之一。这家以色列初创公司成立于2016年，已获得7500万美元的A和B轮融资。Habana Labs主要专注于数据中心，边缘和工作站市场。在不到三年的时间里，该公司已经将产品交付市场，并进行了第二代产品送样以及下一代产品的预研。

Habana的分叉产品线采用了两种独立的芯片设计–一种用于推理，另一种用于训练。我们已经看到英特尔Nervana NNP等其他公司使用了这种方法。这使他们可以针对每种工作负载类型更好地进行优化。但是，Habana则宣称，他们依靠相同的基础架构进行训练和推理，但是针对稍有不同的工作负载优化了这两种设计。但如英特尔等其他公司都依靠两种截然不同的芯片设计。

Goya

Goya是Habana的微体系结构，用于加速推理。Goya采用台积电（TSMC）16纳米工艺制造，而这个产品实际上是Gaudi的简化版本。芯片的两个主要组件是TPC（Tensor Processor Core：张量处理器内核）和GEMM（通用矩阵乘法：general matrix multiply）引擎。

TPC是该公司基于VLIW SIMD的CPU / DSP设计。这些内核基于自定义的VLIW ISA，该功能具有专门的AI SIMD矢量指令。Habana试水TPC的目的之一就是提高灵活性。这些内核是完全C可编程的，它们可以实现任何必要的AI功能，并且支持包括8位，16位和32位整数和浮点运算在内的整个混合精度数据类型。使用Habana的软件堆栈，提供粗粒度（coarse- grained）和细粒度（fine-grained）控制旋钮（control knobs），以将硬件的精度控制到张量级别。这对于某些您希望降低性能但又会获得更好的精度的领域非常重要（This is important for certain fields where you’d rather take a small performance hit but get slightly better accuracy）。完整的Goya芯片具有一个集群中的八个TPC。该芯片与TPC集群一起集成了强大的GEMM（通用矩阵乘法）引擎。

芯片的另一个有趣方面是TPC没有本地缓存。相反，它们具有本地暂存器块以及GEMM引擎和TPC共享的大型共享内存。缓存可以由软件管理，以便针对较低的数据移动进行优化。这使他们能够更轻松地从大型缓存池中传输数据，并改善TPC的确定性。Habana表示，大多数模型应适合高速缓存并完全包含在芯片上。对于更大的内存池，为芯片提供两个通道的DDR4内存，总容量为16 GiB。

Goya推理芯片HL-1000被封装在PCIe Gen 4加速卡中。提供了两个SKU、所提供的冷却类型有被动和主动、卡存储容量之间的差异在4到16 GiB之间。Habana说，卡的最大TDP为200 W，但我们可以预期典型功耗通常仅为该值的一半。

Gaudi

Gaudi是Habana用于加速训练的微体系结构。与Goya一样，它也是用TSMC 16纳米工艺设计，并具有非常相似的架构。该芯片将八个TCP与GEMM引擎集成在一个集群中。由于Gaudi是根据Goya设计的，因此Habana确实设法植入了一些新功能。就支持的数据类型而言，随着行业将bfloat16作为训练的首选数据类型，Habana在Gaudi中增加了对其的支持。Habana说，在TPC和GEMM引擎中，它添加了ISA的一些新功能和硬件功能，以帮助加速某些较新的算法。但是，存在许多关键差异。高迪旨在允许大规模训练。Habana说，在设计芯片时，关键的要求之一就是在小batch size时实现高吞吐量。另一个要求是使用标准以太网作为通信介质。这与专有接口（例如英特尔的ICL链接或用于其NPU和GPU的Nvidia Nvlink）完全不同。Habana希望为客户提供使用现有硬件的自由，并利用标准以太网交换机进行扩展，而不是将其引入并锁定在其他专有接口中。为此，Gaudi集成了10个100 Gb以太网端口以及RoCE RDMA。此外，由于训练需要更高的带宽和更大的存储容量。因此这个双通东的DDR4接口被四个HBM2代替，且拥有32 GiB的内存。Habana提供两种尺寸的HL-2000 Gaudi芯片：OCP加速器模块和标准PCIe卡。两种尺寸都包含32 GiB的HBM2存储器，总带宽为1 TB / s。与Goya一样，PCIe卡也有许多散热选项。Habana还提供了一个参考平台，以允许不想打扰自己盒子设计的客户使用。HL-1包含八张Gaudi HL-205 OAM卡。HLS-1的独特之处在于他们没有CPU。Habana安装了八块高Gaudi芯片，并将它们互连在一起，然后简单地将连接性暴露给外界。公开了4个PCIe端口和6个QSFP- DD端口。客户可以自由选择最适合其工作负载的CPU类型和比率，并使用四个Mini-SAS HD端口进行连接。Goya HL-1000推理芯片已经交付了将近一年。目前，Gaudi HL-2000训练芯片正在提供样品。Habana已经在着手开发其下一代推理和训练芯片，该芯片将转移到7纳米工艺进行。

作者暂无likerid, 赞赏暂由本网站代持，当作者有likerid后会全部转账给作者（我们会尽力而为）。

Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.

Support author:
Author's Filecoin address:
Or you can use Likecoin to support author:

0 0