有了这款英特尔AI芯片,再也不用羡慕谷歌TPU了
美国时间11月12日周二,英特尔终于正式宣布了首个针对复杂深度学习神经网络处理器: Nervana NNP。
全称 Nervana Neural Network Processor,这是英特尔推出的第一款面向数据中心客户,针对复杂深度学习的专用 ASIC 芯片。(用更容易理解的方式来讲:Nervana NNP 就是英特尔版本的 TPU。)
芯片的命名来自于英特尔在 2016 年所收购的神经计算公司 Nervana。
在周二举行的英特尔人工智能峰会上,英特尔副总裁兼人工智能产品事业部总经理 Naveen Rao(原 Nervana 创始人兼 CEO)表示,“随着人工智能的进一步发展,计算硬件和内存都将到达临界点。如果要继续取得巨大进展,专用型硬件必不可少。”
他进一步指出,采用 Nervana NNP 之后,人工智能将在系统层面上变得更加先进,推动从信息技术时代的下一次革命:从“数据到信息的转换”发展到从“信息到知识的转换”。
准确来讲,Nervana NNP 并不是一枚芯片,而是一个芯片家族,一个全新的架构。针对极复杂的深度神经网络,从训练到推理,Nervana NNP 都有不同的产品,适合不同需求的数据中心用户。
家族里的 Nervana NNP-T1000(以下简称 NNP-T)是神经网络训练处理器,Nervana NNP-I1000(以下简称 NNP-I)则面向推理做了巨大优化。
Nervana NNP 芯片家族有三个最主要的亮点:计算密度更高,能效更好,采用英特尔架构+开源的全堆栈软件支持。
英特尔方面宣称,Nervana NNP 芯片家族的运算密度和竞品相比实现了3.7倍的运算密度提升。至于能效方面,特别是在 NNP-I 神经网络推理芯片上,单枚的能耗仅15W。
目前神经网络技术发展突飞猛进,模型的深度越来越大、节点数越来越多,单一处理器已经很难以可以接受的效率完成训练工作,因此对处理器的运算密度、可扩展性以及能耗方面的要求越来越高。
在训练方面, 英特尔展示的数据显示,NNP-T 在 ResNET50 和 BERT benchmark 中能够取得95%的准确率。
由于采用了英特尔先进的内存管理和通讯技术,NNP-T 可以扩展到32甚至更多枚芯片的集群计算架构,并且每一枚的数据传输效率和能耗都能够和单独使用时保持一致。NNP-T 在计算、通信和内存之间取得了平衡,不管是在小规模集群,还是最大规模的超级计算机里,表现都很好。
NNP-T 芯片:
硅星人实拍图
搭载 NNP-T 的计算卡 Mezzanine:
就像 Google 的 Cloud TPU 大规模集群架构那样,英特尔也做了一个 Nervana POD:480枚 NNP-T 神经网络处理器,以10个机架为一个单位。由于 NNP-T 处理器的特性,能够实现在机箱、甚至机架之间实现更好的通信和配合,以近乎线性的扩展能力带来算力的显著提升。
在推理方面, NNP-I 最大的优势在于具有能效高、成本低,且其外形规格灵活,非常适合使用灵活的规格在现实世界中运行密集的多模式推理。
NNP-I 的工作功耗大约在15W左右,它能够和数据中心企业用户自己的技术实现完美的结合,部署更快、更高效的推理计算。
英特尔面向了百度、 Facebook 等前沿人工智能客户,并针对他们的人工智能处理需求进行了定制开发。比如当 NNP-I 和 Facebook Glow 编译器结合时,可以对计算机视觉等工作负载实现显著优化,在实现高性能的同时节约更多的能源。
NNP-I 芯片:
搭载 NNP-I 芯片的 m.2 计算卡:
硅星人实拍图
截至今天,除了英特尔之外,世界上领先的计算公司,包括英伟达和高通等在内,都已经推出了和 Nervana NNP 类似的神经网络处理器,比如 TESLA、Cloud AI 100 等。而早在它们之前,Google 为了满足人工智能训练需要开发了自己的 TPU。在这样的竞争环境下,Nervana NNP 的意义如何凸显?
英特尔方面透露,近年来人工智能算力的需求显著增长,企业客户对于数据中心算力的要求,每三个半月就会提升一倍。
一个不可忽视的事实是:至少在工业界,大部分公司和机构的数据中心和云计算服务,其计算基础都是是英特尔的至强 (Xeon) 处理器。推进深度学习推理和应用需要极其复杂的数据、模型和技术,因此在架构选择上需要有不同的考量。对于那些已经投入在英特尔架构上的客户来说,Nervana NNP 在架构兼容和性能优化上的优势无疑是十分显著的。
正如 Naveen Rao 所说,人工智能的发展对专用芯片带来了前所未有的需求。除了全球领先的科技公司之外,还有许多规模稍逊的公司,业务同样涉及人工智能,但他们对于数据中心计算的模式要求是差异化的。
一个最直接的例子,就是并非每家公司都愿意支付给 Google 和亚马逊巨额云计算费用。它们可能需要在自己的数据中心里架设自有云,可能对计算量有或少、或多,以及不断改变的需求。对于这些客户,以及它们在可及性、兼容性、扩展弹性等方面的要求,Nervana NNP 目前看起来是最好的方案之一。
除了 Nervana NNP 芯片家族之外,英特尔还推出了用于边缘计算的第三代视觉处理器 Movidius Myriad VPU。
和第二代相比,第三代 VPU 再次刷新了边缘计算性能的标杆,在特定计算机视觉任务上的推理性能提升了超过10倍,能效也比竞品更好。这一产品主要适用于终端的嵌入式环境,比如小型机器人、摄像头、智能家具等。
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: