本文来自微信民众号:半导体行业考察(ID:icbank),作者:李飞,题图来自:视觉中国
最近苹果在宣布会上公开了新的A14 SoC。凭据宣布会,该SoC将用于新的iPad上,而凭据行业人士的推测该SoC也将会用在新的iPhone系列中。除了通例的CPU和GPU升级之外,A14最引人注目的就是Neural Engine的算力提升。我们以为,苹果A系列SoC在近几年内Neural Engine的算力增进可以作为一种新的AI算力范式,成为新的摩尔定律。
A14上的新Neural Engine
苹果宣布的A14 SoC使用5nm工艺,而新的Neural Engine则使用16焦点设计,其峰值算力可达11 TOPS,远超上一代的Neural Engine(6TOPS)。在宣布会上,苹果明确示意该Neural Engine主要支持加速矩阵相乘。此外,苹果还示意新的Neural Engine连系CPU上的机械学习加速,可以将现实的AI应用体验相对于前代提升十倍。
新的Neural Engine的峰值算力大大提升可以说是有些意料之外,然则又是情理之中。意料之外是由于A14的其它要害指标,例如CPU和GPU等相对于前一代A13的提升并不多(宣布会上给出的30%提升对比的是再前一代的A12 SoC,若是直接和上一代A13相比则CPU性能提升是16%而GPU则是10%左右),然则Neural Engine的性能提升则靠近100%。而Neural Engine性能提升大大跨越SoC其他部门是情理之中则是由于我们以为若是仔细剖析SoC性能提升背后的推动力,则可以得出Neural Engine性能大幅提升是异常合理的。
一方面,从应用需求侧来说,对应CPU和GPU的相关应用,例如游戏、网页浏览、视频等在未来可预见的几年内都没有快速的需求增进,唯有人工智能有这样的需求。另一方面,CPU和GPU的性能在给定架构下的性能提升也较难题,很大一部门提升必须靠半导体工艺,而事实上半导体工艺的升级在未来几年内可预期将会越来越慢,每代工艺升级更注重于晶体管密度以及功耗,在晶体管性能方面的提升将越来越小。而AI加速器则另有相当大的设计提升空间,信赖在未来几年仍将会有算力快速增进。
Neural Engine算力增进趋势
我们不妨回首一下已往几代A系列SoC中Neural Engine的算力增进。
最早加入Neural Engine的SoC是2017年宣布的A11。该SoC使用10nm工艺,搭载第一代Neural Engine峰值算力为0.6TOPS,Neural Engine的芯片面积为1.83mm2。那时Neural Engine主要针对的应用是iPhone新推出的人脸识别锁屏FaceID以及人脸要害点追踪Animoji,且Neural Engine的算力并纰谬第三方应用开放。
第二代Neural Engine则是在2018年的A12 SoC上。该SoC使用7nm工艺,Neural Engine面积为5.8mm2,而其峰值算力则达到了5TOPS,相比前一代的Neural Engine翻了近10倍。而凭据7nm和10nm工艺的晶体管密度折算则可以估量出Neural Engine的晶体管数目约莫也是增添了6-7倍,基本和算力提升靠近。
第三代Neural Engine是2019年的A13,使用第二代N7工艺,其面积相比上一代削减到了4.64mm2,而算力则增添到了6TOPS。我们以为这一代的Neural Engine是上一代的小幅改良版本,并没有做大幅升级。
最近宣布的A14则搭载了最新一代的Neural Engine,使用5nm工艺,Neural Engine的详细面积尚没有详细数字,然则其算力则是达到了11TOPS,是上一代的靠近两倍。
从上面的剖析可以看出Neural Engine每次主要升级都伴随着算力的大幅上升,第一次上升了近十倍,而第二次则上升了近两倍。若是根据现在两年一次主要升级的节奏,我们以为在未来数年内Neural Engine乃至于广义的AI芯片市场都市有每两年性能提升两倍的纪律,类似半导体的摩尔定律。我们以为,这样的纪律可以以为是AI芯片算力的新摩尔定律。
为什么AI芯片算力增进会成为新的摩尔定律
AI芯片算力指数上升的主要驱动力照样主流应用对于AI的越来越倚重,以及AI神经网络模子对于算力需求的快速提升。
应用侧对于AI的需求正在越来越强。就拿智能装备为例,2017年苹果A11中AI的主要应用照样面部要害点识别和追踪,而到了2018年最先越来越多的应用最先使用AI,包罗图像增强、拍摄虚化效果等,在下一代智能装备中AI则加倍普及,首先从人机交互来看,下一代智能装备中常见的人机交互方式手势追踪、眼动追踪、语音输入等都需要AI,这就大大增添了AI算法的运行频率以及算力需求。
此外,下一代智能装备中有可能会用到的一系列新应用都倚重AI,包罗游戏、增强现实等应用中,都需要运行大量的AI模子例如SLAM,要害点识别、物体检测和追踪、姿势识别和追踪等等。
另一方面,AI对于算力的需求也在快速提升。凭据HOT CHIPS 2020上的特邀演讲,AI模子每年对于算力需求的提升在10倍左右,因此可以说AI模子对于硬件加速的需求异常强。
若是我们从另一个角度思量,这实在就意味着AI加速芯片的算力提升在赋能新的场景和应用——由于总是有新的性能更高的AI模子需要更强的硬件去支持,而一旦支持了这样的新模子则又能赋能新的应用。
从现在主流的盘算机视觉相关的AI,到以BERT为代表的大规模自然语言处置算法,以及未来可能泛起的将BERT和盘算机视觉相连系的视觉高阶语义明白等等,我们在未来几年内尚未看到AI模子提高的住手以及可能的新应用场景的泛起,相反现在的瓶颈是AI加速硬件性能跟不上。
这也就意味着,AI加速硬件才是AI模子落地的最终赋能者,这就像昔时摩尔定律大跃进的PC时代,那时每一次CPU处置器的提高都意味着PC上能运行更多的应用,因此我们看到了CPU性能在那时的突飞猛进;今天这一幕又重现了,只是今天的主角换成了AI加速芯片。
AI算力增进来自何方?
剖析完了AI加速芯片的需求侧,我们不妨再来看看供应侧——即现在的手艺还能支持AI芯片多少算力提升?
首先,AI加速器芯片和传统CPU的一个焦点差异在于,CPU要处置的通用程序中往往很大一部门难以并行化,因此纵然增添CPU的焦点数目,其性能的增添与焦点数也并非线性关系;而AI模子的盘算通常较为规整,且很容易就可以做并行化处置,因此其算力提升往往与盘算单元数目呈靠近线性的关系。这在我们之前对比A11和A12 Neural Engine的晶体管数目和算力提升之间的关系也有类似的结论。
现在,以Neural Engine为代表的AI加速器占芯片总面积约为5%,未来若是AI加速器的面积能和GPU有类似的面积(20%左右),则AI加速器的盘算单元数目也即算力至少另有4倍的提升空间。此外,若是思量两年两倍的节奏并思量未来几年内可能会落地的3nm工艺,则我们以为AI加速器算力两年两倍的提升速率从这方面至少另有5-6年的空间可挖。
除了单纯增添盘算单元数目之外,另一个AI加速器算力主要的提升空间来自于算法和芯片的协同设计。从算法层面,现在主流的移动端模子使用的是8-bit盘算精度,而在学术界已经有许多对于4-bit甚至1-bit盘算的研究都取得了大幅降低盘算量和参数目的同时几乎不降低模子精度。
另外,模子的希罕化处置也是一个主要的偏向,现在许多模子经由希罕化处置可以降低50%~70%的等效盘算量而不降低精度。因此若是思量模子和芯片和协同设计并在加速器中加入相关的支持(如低精度盘算和希罕化盘算),我们预计还能在盘算单元之外分外带来至少10倍等效算力提升。
最后,当峰值算力的潜力已经被充实挖掘之后,另有一个潜力偏向是针对差别AI模子的专用化设计,也即异构设计。AI模子中,常用于机械视觉的卷积神经网络和常用于机械翻译/语音识别的循环卷积网络无论是在盘算方法照样内存接见等方面都截然差别,因此若是能做专用化设计,则有可能在峰值算力稳定的情况下,现实的盘算速率仍然取得数倍的提升。
连系上面讨论的一些偏向,我们以为AI加速芯片的算力在未来至少另有数十倍甚至上百倍的提升空间,再连系之前讨论的应用侧对于算力的强烈需求,我们以为在未来数年内都市看到AI加速芯片的算力一两年翻倍地指数上升。在这一领域,事实上中国的半导体行业有很大的机遇。如前所述,AI芯片性能提升主要来自于设计的提升而非工艺提升,而中国无论是在半导体电路设计领域照样AI模子领域都并不落伍,因此有机遇能捉住这个机遇。
本文来自微信民众号:半导体行业考察(ID:icbank),作者:李飞
版权保护: 本文由 原创,转载请保留链接: http://www.allart.com.cn//html/2020/0922/3299.html