新闻  |   论坛  |   博客  |   在线研讨会
获“AlphaGo之父”背书,英AI芯片独角兽正打入中国AI生态圈,IPU参与混战之中
深科技 | 2020-06-22 23:04:18    阅读:96   发布文章

提起来自英国的芯片公司,ARM 可谓独揽美誉:这家只有不到 2000 人的公司,“统治” 着世界上 90% 以上的手机芯片,苹果、华为、三星所发布的各类芯片,归根结底还是 ARM-Base Chips。


不过,新生代力量也未缺席。Graphcore 是其中的代表性公司。


首先引发外界注意的是,这家公司的投资者名单中有不少 AI 领域的领袖级人物,包括 AlphaGo 之父、DeepMind 联合创始人哈萨比斯,剑桥大学教授 Uber 首席科学家 Zoubin Ghahramani,加州大学伯克利分校教授 Pieter Abbeel,OpenAI 联合创始人 Greg Brockman 等。明星机构投资者则有红杉等。


image.png


随着今年年初宣布 1.5 亿美元 D 轮融资,成立于 2016 年的 Graphcore 已筹集了超过 4.5 亿美元的风险投资基金,其估值达 19.5 亿美元。


英国半导体之父、ARM 的联合创始人 Hermann 爵士曾对 Graphcore 的芯片给出很高期望:“在计算机历史上只发生过三次革命,一次是70年代的 CPU,第二次是 90 年代的 GPU,而 Graphcore 就是第三次革命。”


充足的资金弹****,又有如此高的评价,也让 Graphcore 对其 2020 年的工作重点之一— — 吸引中国客户、打开中国市场颇有信心。


详解另类AI芯片产品代表 — — IPU


Graphcore 将其开发的人工智能芯片命名为 IPU(Intelligent Processing Unit / 智能处理器),在 2018 年就已量产上市。


过去几年,AI 芯片品类迎来物种大爆发,因此不乏一些颇为另类、甚至堪称疯狂的产品。比如在去年于顶会 Hot Chips,Cerebras Systems 就发布了史上最大半导体芯片 WSE,拥有 1.2 万亿晶体管,比最大的 GPU 大 56.7 倍。


Graphcore 开发的 IPU 也有一些大胆的想法。在近日接受 DeepTech 采访中,Graphcore 高级副总裁兼中国区总经理卢涛详细介绍了 IPU 背后的技术逻辑。


image.png


Graphcore 认为,AI 应是一个全新的应用架构,它底层表征是以计算图作为表征的,所以需要一种全新的处理器架构,而且,常见的将 AI 计算区分为训练和推理也不是可取的分类方向,新的 AI 计算架构本来就应该要具备同时处理二者工作的能力。


回顾处理器近年来的发展,从一个 teraflops 到十个 teraflops 再到现在的一百个 teraflops,算力提升的速度非常之快。但在发布会上展示的算力规格无论是几个 teraflops,与现实往往有差距:有效的算力远远达不到峰值。


造成这个现象的原因在于,芯片内存的带宽非常限制性能。


当处理器算力提高 10 倍,那内存应该如何提高 10 倍的性能?传统的 DDR4、DDR5、HBM、HBM1、HBM2、HBM3 的内存解决方案等,基本上每一代大概能有 30%、40% 的提升。在这方面,与传统的 CPU、GPU 相比,IPU 用了大规模并行 MIMD 的处理器核。另外做了一个非常大的分布式的片上 SRAM,在片内做到 300MB 的 SRAM,相对 CPU 的 DDR2 子系统或者是相对于 GPU 的 GDDR、HBM 来说,可以做到 10 到 320 倍的性能提升。从时延的角度来看,与访问外存相比较,时延基本上就是 1%,可以忽略不计。


另外,IPU 是一个标准的神经网络处理芯片,而且规模很大,通常具备数千到数百万个顶点,除了标准神经网络之外,也适用于贝叶斯网络(也称为信度网络、因果网络,是指基于概率分析、图论的一种不确定性知识的表达和推理的模型)和马尔科夫网络(马尔可夫网络类似贝叶斯网络用于表示依赖关系。但是,一方面它可以表示贝叶斯网络无法表示的一些依赖关系,如循环依赖;另一方面,它不能表示贝叶斯网络能够表示的某些关系,如推导关系),而因为架构具备弹性,未来的新模型与算法理论上也都能够完美支持。


由于其庞大的顶点数量,远超出现有最大 GPU 的规模数百倍,这也意味着其在并行工作的处理潜力非常惊人。另外,这些顶点都是稀疏的,绝大多数顶点都只连结到其他一小部分顶点。另外,IPU 也是针对低精度的数据模型优化,也就是具备数据的统计近似值概念,这和过去超算的概念完全不同。另外,IPU 也支持了模型参数的复用。简单来说,卷积是空间复用,回归是时间复用。这些复用特性可以获取数据中的空间或时间不变性,对于训练与推理的性能会有明显帮助。


从整体上看 IPU,目前已经量产的是 GC2 处理器,采用 TSMC 16nm 工艺。该处理器目前片内有 1216 个 IPU-Tiles,每个 Tile 中有独立的 IPU 核作为计算以及 In-Processor-Memory,即处理器之内的内存。所以对整个 GC2 来说,共有 7296 个线程,能够支持 7296 个程序并行运行。对整片来说,In-Processor-Memory 总共是 300 MB。


据介绍,IPU 的整个设计思想是要把所有的模型放在片内处理。


在各个核心之间的 BSP 同步,能支持同一个 IPU 处理器之内 1216 个核心之间的通信,以及跨不同的 IPU 之间做通信。这都是通过 BSP 的同步协议实现,之间还有一个非常高速的 IPU exchange、8 TB/s 的多对多交换总线。


另外,在 IPU 和 IPU 之间还有 80 个 IPU-Links,构成 320 GB/s 的芯片与芯片之间的带宽。如此一来,同一个处理器就同时支持了训练和推理。


目前来看,IPU GC2 是世界上非常复杂的拥有 236 亿个晶体管的芯片处理器,在 120 瓦的功耗下有 125TFlops 的混合精度、1216 个独立的处理器核心(Tile)、300M 的 SRAM 能够把完整的模型放在片内,另外内存的带宽有 45 TB/s、片上交换 8 TB/s,片间的 IPU-Links 是 2.5 TB/s。


而诸如 IPU GC2 有 1216 个核心(Tile)、7000 多个线程,解决并行硬件的高效编程问题又是一个非常大的课题。


为此,Graphcore 采用构建大规模数据中心集群的 BSP 技术(Bulk Synchronous Parallel)。该技术目前在谷歌、Facebook、百度这样的大规模数据中心内均已得到应用。


因而,IPU 也是目前世界上第一款 BSP 处理器,通过硬件能支持 BSP 协议,并通过 BSP 协议把整个计算逻辑分成了计算、同步、交换,对软件工程师或开发者来说十分友好。


Graphcore 在 IPU 设计上应用了很多相当极端的想法,虽然理论上以其规模应该更适合放到云端,但 Graphcore 认为 IPU 架构拥有很好的伸缩性,边缘或是终端计算同样能良好胜任。


积极融入中国 AI 生态圈


技术以外,和一些 AI 芯片公司其产品仍停留在 PPT 阶段不同,IPU 在 2018 年就已量产上市。


目前,Graphcore 客户名单上已有微软、Citadel 和 Qwant。其中,最为外界瞩目的公司还是科技巨头微软。


近年来,越来越多的科技巨头希望使用专门的人工智能硬件以加速数据中心,对高性能计算芯片的需求正在迅速增长。我们耳熟能详的几个名字正在该领域进行积极的收购和合作,例如,英特尔就曾斥资 20 亿美元收购了 Graphcore 的竞争对手、以色列公司 Habana Labs。


显然,对初创公司来说,长期稳定的发展除了自身要有强大的实力外,与外界的合作联系也十分必要。


2019 年 11 月,Graphcore 宣布与微软达成合作,在微软的云计算平台 Azure 上部署其 AI 处理器。此次合作不仅将增加 Graphcore 的AI芯片使用率,还有可能扩大其客户群。


2020 年,Graphcore 的一个重要目标是开拓中国市场。


刚刚过去的 5 月,其融入中国 AI 生态圈的诸多进展得以公布:在 OCP Global Summit 上,阿里巴巴异构计算首席科学家张伟丰博士宣布了 Graphcore 支持 ODLA 的接口标准;在百度 Wave Summit 2020 上,百度集团副总裁吴甜女士宣布 Graphcore 成为飞桨硬件生态圈的创始成员之一,双方签署了倡议书。


“Graphcore 策略上是要积极拥抱中国的 AI 生态圈。通过这样一种方式融入中国 AI 生态圈,在于我们认为除了像国际上比较流行的 TensorFlow、PyTorch 以外的框架,中国本土的机器学习框架也会有出色表现。


长期来说,我们对中国市场的期望非常高,期望中国市场能够占到 Graphcore 全球市场的 40% 甚至 50%。虽然我们在中国市场的整体启动比北美晚了近一年,但从目前进展来看,前景还是非常不错的。” 卢涛表示。


市场竞争进入启动期,“有两类 AI 芯片公司或被淘汰”


不过他也强调,生态以外,AI 芯片本质上仍需回归技术攻坚。


以年初轰动业界的 Wave Computing 倒闭为例,其诞生之初也有着明星企业的光环,最终却黯然退场。


卢涛认为,Wave Computing 的倒闭并不意味着 AI 领域遇到寒冬,“全球 AI 发展并没有走向低潮,今年反而会有更****展。


据了解,自然语言处理是需要强劲算力的一大类 AI 应用。


“NLP 相关技术的崛起会催生大量的、各种各样的应用,以及在算力方面的大幅提升。现在一般的 CV 类模型是几兆的参数、几百万或者几千万的参数,而更大一些的 NLP 模型,现都是一亿、十亿、一百亿的参数容量,对算力的要求是指数级的。所以,我们认为,AI 芯片产业存在这样一个问题,即一个 AI 处理器从作为一个处理器到最后商业落地,其实中间的落差还是非常大的。


开发出芯片只是第一部分,出来之后配套的是不是有比较好的工具链,是不是能够有比较丰富的软件库来支撑主流算法,以及是不是能够跟主流的机器学习框架进行无缝连接,最后对用户来说展现的是比较好的可移植性或者是可开发性/可部署性,最终差距其实还有很多。所以,整个链条全部打通的话需要非常大的投入。


而他也强调,有两种类型的 AI 芯片公司将会遭遇困境:一类是处理器仍未量产的公司;第二类是有了处理器,但对软件重视不够的公司。“没有足够投入的话,未来面临的会是困难局面。”


“2020 年对 AI 芯片确实是非常关键的一年。因为全球有很多企业都在开发 AI 处理器,但是否这些处理器真能做出来、是否真的能够有一些场景落地?如果说拿不出来,那么对于后期持续化的投入,可能是一个非常大的挑战”。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客