• 欢迎访问爱乐网,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站,欢迎加入爱乐网的大家庭
  • 如果您觉得爱乐网非常符合您的胃口,那么赶紧使用Ctrl+D 将爱乐网加入浏览器收藏夹吧

Google公布TPU论文_TPU人工智能技术专用处理器

黑科技 爱乐网 1年前 (2017-04-07) 3028次浏览 0个评论

Google 公布 TPU 论文 _TPU 人工智能技术专用处理器

都说Google是全球人工智能技术领头羊,今天放出来的TPU论文就是一个最好的证明。

早在去年 5 月中旬的Google I/O 大会上,Google就已经透露了自己的 Tensor Processing Unit(Tensor 处理单元)处理器,简称TPU。但相关细节,Google却迟迟没有公布,直到这次TPU论文的发布。

TPU的最新细节

Google 公布 TPU 论文 _TPU 人工智能技术专用处理器

首先需要指出,TPU是一个人工智能技术专用处理器,在种类上归属于 ASIC(Application Specific Integrated Circuit,为专门目的而设计的集成电路)。

相比人工智能技术常见的另外几种处理器CPU(中央处理器)、GPU(图像处理器)、FPGA(阵列可编程逻辑门阵列),ASIC 天生就是为了应用场景而生,所以在性能表现和工作效率上都更加突出。以下是Google硬件工程师 Norm Jouppi 在Google云计算博客上透露的部分性能信息:

1、在神经网络层面的操作上,处理速度比当下 GPU 和 CPU 快 15 到 30 倍;

2、在能效比方面,比 GPU 和 CPU 高 30 到 80 倍;

3、在代码上也更加简单,100 到 1500 行代码即可以驱动神经网络;

这要归功于 ASIC 本身的特点:处理器的计算部分专门为目标数据设计,100%利用;不需要考虑兼容多种情况,控制配套结构非常简单,间接提升了能效比;可以在硬件层面对软件层面提前进行优化,优化到位的情况下可以极大减少 API 接口的工作量。

Google 公布 TPU 论文 _TPU 人工智能技术专用处理器

Google 也专门对比了在人工智能场景下TPU相对于 CPU/GPU 的能效比表现,不同颜色分别对应不同对比对象的结果(注:TPU’是改进版 TPU)。可以看到 GPU 相对于 CPU 的领先倍数最多只有 2.9,而 TPU’对 CPU 的领先幅度已经达到了 196 倍,对 GPU 的领先幅度也达到了 68 倍。能效比上的突出表现也能直接进行转化,为用户带来更低的使用成本。

Google 公布 TPU 论文 _TPU 人工智能技术专用处理器

Google 另外还对比了单芯片的平台单位功耗,可以看到 TPU 在计算任务逐渐加重情况下,功耗浮动不过 10%左右。而单 CPU 服务器的功耗波动接近 300%,绝对功耗数字的更高也让服务器需要配备更多散热资源,无形中也增加成本。

Google 公布 TPU 论文 _TPU 人工智能技术专用处理器

Google 这次也公布了 TPU 的真实长相,通过板载的 DDR3 颗粒、PCIE 接口可以看出实际尺寸并不算很大。PCB 布局看上去也并不复杂,TPU 在中间,上下是 DDR3 颗粒阵列,左侧是供电部分,右侧是剩余配套零件。

值得注意的是,Google 还在论文中增加了一段描述:“这块电路板也可以安装在服务器预留的 SATA 盘位中,但是目前这款卡使用的是 PCIe Gen3 X16 接口”。这一方面透露出了 TPU 的数据吞吐能力,同时也让人遐想,Google 是否会尝试将其打造成更加通用化的硬件产品,比如适配 SATA 接口之后对外出售。

业内人士告诉你怎么看 TPU

TPU 一出,数倍于 CPU、GPU 的性能技惊四座。但也有业内人士向 Xtecher 说出了自己的看法:这个芯片没有什么太神奇的地方,虽然性能很惊艳,但是成本也会很高,而且目前 TPU 并不能单独使用,还是要配套 CPU/GPU。

Google 公布 TPU 论文 _TPU 人工智能技术专用处理器

华登国际合伙人王林也在朋友圈贴出了自己的看法(Xtecher 已经获得了许可):

1、芯片本身设计难度并不大,以 floor plan 看,data buffe 加上乘加器阵列占了 2/3 面积,再去掉比较大的两个 DDR3 的 PHY,一个 PCIE Gen3 x16 接口,控制电路只有 2%。

2、为了降低功耗,提高性能,目前这款 TPU 的几个设计指导原则是:增加数据带宽,减少和 host CPU 的交互,不让乘加器阵列闲着。所以用了 24MB 的片上 Memory,多 DDR3 接口用于数据交换,4 阶 CISC 指令流水线保证 MatrixMultiply 优先级。带来的代价就是大的 die size,主频不高。

3、考虑现有生态环境,TPU 软件要和 CPU/GPU 兼容。

4、稀疏化应是 TPU 以后的开发重点,论文来头就提到压缩到 8 位整数用于 inference 已经足够好了。

5、这么贵的芯片,我也就是看看……

Xtecher 也专门采访了国内创业公司纵目科技 CEO 唐悦:

这个东西实际跟视频解码一个道理,人工智能你能够拿 CPU 来做也可以拿 GPU 来做,当它算法相对固定之后,你就可以专门去打造专用硬件。实际上各种各样的东西都能够实现一个目标,问题在于灵活度和专业性两个方向如何把握。如果当前算法没有固定,那就应该多用 CPU 和 GPU,如果算法固定了,那么就可以尝试打造专用芯片。而事实上,人工智能恰巧处于这两个方向的变化当中。

因为之前神经网络一直在变,完全可编程的 GPU 更加适合用来探索,CPU 以为并行能力比较弱还是定位在通用处理器。但随着人工智能技术的推进,我们就能够根据目前人工智能的需求来专门打造芯片,它比本身为图像运算打造的 GPU 更加专注,自然效果更好。

这跟很多人现在用 FPGA 去运算也是一样的,因为专用的硬件比通用的硬件性能一定更好。反过来说,究竟这个负责人工智能的处理器叫什么完全没有所谓。同样的,这件事 Google 可以做,高通也在做,这并不是什么特别的神奇的东西。

Google 自己怎么说?

Google 公布 TPU 论文 _TPU 人工智能技术专用处理器

去年年中,谷歌全球数据中心网络主管乌尔斯·霍勒泽(Urs H lzle)就曾在公开场合对 TPU 的一系列问题进行了公开解答:

Google 今后还将研发更多这样的芯片。

Google 不会把这种芯片出售给其他公司,不会直接与英特尔或 NVIDIA 进行竞争。但 Google 拥有庞大的数据中心,是这两家公司迄今为止最大的潜在客户。与此同时,随着越来越多的企业使用谷歌提供的云计算服务,它们自己购买服务器(和芯片)的数量就会越来越少,也就给芯片市场带来进一步的冲击。

TPU 目前(当时)主要用来处理 Android 手机语音识别所需要的“一部分计算”。GPU 已经在一点点出局。GPU 太通用了,对于机器学习针对性不强。机器学习本来就不是 GPU 的设计初衷 。

之所以不采用更加方便的方式——直接在 FPGA 基础上固化算法,是因为 ASIC 快得多。

TPU 背后的人工智能趋势?

Google 公布 TPU 论文 _TPU 人工智能技术专用处理器

既然 TPU 只不过是一颗带有人工智能“光环”的 ASIC,那么它究竟反映出了什么趋势?

首先是专注人工智能领域硬件的市场巨大,虽然 CPU/GPU 已经提供了通用运算能力,但是性能更好,能效比更高的 FPGA、ASIC 需求日趋强烈。

二个是随着人工智能技术的进一步发展,硬件专业化趋势不可避免。就像比特币挖矿一样,主力挖矿设备从 CPU 到 GPU,从 GPU 到 FPGA,最后再到 ASIC。

除了 Google,很多公司其实也在进行着类似的专业化硬件开发工作,相信不久的将来,一大批专业化硬件的出现将会为人工智能的发展再次注入动力,促进更多应用场景和更优质服务的出现。

总的来看,TPU 的确算是人工智能发展历程中的一个“小里程碑”,但真的没有什么好大惊小怪的。


爱乐网(http://aile.so) , 版权所有丨如未注明 , 均为原创丨爱乐网采用BY-NC-SA协议进行授权 , 转载请注明:Google 公布 TPU 论文 _TPU 人工智能技术专用处理器
66 分享网
喜欢 (1)
[]
分享 (0)
爱乐网
关于作者:
爱乐网,专注互联网最新科技资讯分享,汇集各种软件教程、游戏攻略,为用户收集整理各类破解软件、正版软件、小工具的软件下载网站,永久网址:http://aile.so
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到