我们的专业付出,值得您的永久信赖!为您量身定制,信誉第一!

订货热线:11604663301

推荐产品
  • 区块链能否助燃中国碳市场|lpl联赛下注网站
  • 抖音出广告语了 一起记载优美吧! | 营销故事会_lpl联赛下注网站
  • lpl联赛下注网站-场景赋能,服务美好生活 —美团点评首届智能营销峰会上海站圆满举办
当前位置:首页 > 产品中心 > 三角木垫
比CPU、GPU快30倍?谷歌TPU内部架构藏有什么秘密|lpl联赛下注网站

 


69719
本文摘要:在2016年5月的I/O开发者大会上,谷歌首次向外透漏了其机器学习专用芯片Tensor处理单元(TPU)。

lpl联赛下注网站

在2016年5月的I/O开发者大会上,谷歌首次向外透漏了其机器学习专用芯片Tensor处理单元(TPU)。之后,谷歌除了发布它们是环绕公司自身展开优化的TensorFlow机器学习框架之外,就再未透漏更好的细节。2020-03-30 ,这款机器学习自定义芯片的谜样面纱再一被揭露了。4月5日,谷歌资深硬件工程师NormanJouppi刊文回应,谷歌的专用机器学习芯片TPU处理速度要比GPU和CPU慢15-30倍(和TPU对比的是英特尔HaswellCPU以及NvidiaTeslaK80GPU),而在能效上,TPU堪称提高了30到80倍。

值得注意的是,这些数字是关于在生产中用于机器学习模型的,而不是首次创立模型。从这次公布的测试结果来看,TPU或许早已远超过了业界的预期,但是藏在这一芯片背后的内部架构到底有什么秘密呢,我们从Jouppi此前公布的论文当中,可以寻找答案。据理解,早于在四年前,谷歌内部就开始用于消耗大量计算资源的深度自学模型,这对CPU、GPU人组而言是一个极大的挑战,谷歌自知如果基于现有硬件,他们将被迫将数据中心数量翻一番来反对这些简单的计算出来任务。

所以谷歌开始研发一种新的架构,Jouppi称作“下一个平台”。Jouppi曾是MIPS处理器的首席架构师之一,他首创了内存系统中的新技术。三年前他重新加入谷歌的时候,公司上下正在用CPU、GPU混合架构上来展开深度自学的训练。Jouppi回应,谷歌的硬件工程团队在改向自定义ASIC之前,早期还曾用FPGA来解决问题廉价、高效和高性能推理小说的问题。

lpl联赛下注网站

但他认为,FPGA的性能和每瓦性能比起ASIC都有相当大的差距。他说明说道,“TPU可以像CPU或GPU一样可编程,它可以在有所不同的网络(卷积神经网络,LSTM模型和大规模几乎相连的模型)上继续执行CISC指令,而不是为某个专用的神经网络模型设计的。一言以蔽之,TPU兼备了CPU和ASIC的有点,它不仅是可编程的,而且比CPU、GPU和FPGA享有更高的效率和更加较低的能耗。TPU的内部架构该图表明了TPU上的内部结构,除了外挂的DDR3内存,左侧是主机界面。

指令从主机发送到队列中(没循环)。这些转录掌控逻辑可以根据指令多次运营完全相同的指令。

TPU并非一款简单的硬件,它看上去看起来雷达应用于的信号处理引擎,而不是标准的X86派生架构。Jouppi说道,尽管它有众多的矩阵乘法单元,但是它GPU更加善于浮点单元的协处置。另外,必须留意的是,TPU没任何存储的程序,它可以必要从主机发送到指令。

lpl联赛下注网站

TPU上的DRAM作为一个单元分段运营,因为必须提供更好的权重以馈送到矩阵乘法单元(算下来,吞吐量超过了64,000)。Jouppi并没提及是他们是如何图形(systolic)数据流的,但他回应,用于主机软件加速器都将沦为瓶颈。

256×256阵列图形数据流引擎,经过矩阵乘法累积后构建非线性输入从第二张图片可以显现出,TPU有两个内存单元,以及一个用作模型中参数的外部DDR3DRAM。参数进去后,可从顶部读取到矩阵乘法单元中。同时,可以从左边读取转录(或从“神经元”输入)。那些以膨胀的方式转入矩阵单元以产生矩阵乘法,它可以在每个周期中展开64,000次相加。

毋庸置疑,谷歌有可能用于了一些新的技巧和技术来减缓TPU的性能和效率。例如,用于高带宽内存或混合3D内存。

然而,谷歌的问题在于维持分布式硬件的一致性。


本文关键词:lpl联赛下注网站

本文来源:lpl联赛下注网站-www.manalglobal.com