您当前的位置:中国科学网>资讯>正文

深度解读达芬奇架构华为AI芯片的秘密武器

放大字体  缩小字体 时间:2019-08-22 15:31:59 作者:责任编辑NO。许安怡0216

  来历:华为

  2019年6月,华为发布全新8系列手机SoC芯片麒麟810,初次选用华为自研达芬奇架构NPU,完结业界抢先端侧AI算力,在业界公认的苏黎世联邦理工学院推出的AI Benchmark榜单中,搭载麒麟810的手机霸榜TOP3,可谓华为AI芯片的“秘密武器”,这其间华为自研的达芬奇架构无足轻重。

2019年8月20日数据

  那么,达芬奇架构AI实力终究怎么样?一起来深化了解下。

  源起:为什么要做达芬奇架构?

  华为猜测,到2025年全球的智能终端数量将会到达400亿台,智能助理的普及率将到达90%,企业数据的运用率将到达86%。能够预见,在不久的将来,AI将作为一项通用技能极大地进步生产力,改动每个安排和每个职业。根据这样的愿景,华为在2018全联接大会上提出全栈全场景AI战略。作为重要的技能根底,AI芯片在其间发挥着重要作用,而华为也根据AI芯片供给了完好的解决方案,加快使能AI产业化。为了完结AI在多渠道多场景之间的协同,华为立异规划达芬奇核算架构,在不同体积和功耗条件下供给微弱的AI算力。

  初见:达芬奇架构的中心优势

  达芬奇架构,是华为自研的面向AI核算特征的全新核算架构,具有高算力、高能效、灵敏可裁剪的特性,是完结万物智能的重要根底。具体来说,达芬奇架构选用3D Cube针对矩阵运当作加快,大幅进步单位功耗下的AI算力,每个AI Core能够在一个时钟周期内完结4096个MAC操作,比较传统的CPU和GPU完结数量级的进步。

3DCube

  一起,为了进步AI核算的齐备性和不同场景的核算功率,达芬奇架构还集成了向量、标量、硬件加快器等多种核算单元。一起支撑多种精度核算,支撑练习和推理两种场景的数据精度要求,完结AI的全场景需求掩盖。

  深耕:达芬奇架构的AI硬实力

  科普1:常见的AI运算类型有哪些?

  在了解达芬奇架构的技能之前,咱们先来弄清楚一下几种AI运算数据目标:

  • 标量(Scalar):由独自一个数组成

  • 向量(Vector):由一组一维有序数组成,每个数由一个索引(index)标识

  • 矩阵(Matrix):由一组二维有序数组成,每个数由两个索引(index)标识

  • 张量(Tensor):由一组n维有序数组成,每个数由n个索引(index)标识

  其间,AI核算的中心是矩阵乘法运算,核算时由左矩阵的一行和右矩阵的一列相乘,每个元素相乘之后的和输出到成果矩阵。

  在此核算过程中,标量(Scalar)、向量(Vector)、矩阵(Matrix)算力密度顺次添加,对硬件的AI运算才干不断提出更高要求。典型的神经网络模型核算量都十分大,这其间99%的核算都需求用到矩阵乘,也就是说,假如进步矩阵乘的运算功率,就能最大程度上进步AI算力——这也是达芬奇架构规划的中心:以最小的核算价值添加矩阵乘的算力,完结更高的AI能效。科普2:各单元人物分工揭秘,Da Vinci Core是怎么完结高效AI核算的?

  在2018年全联接大会上,华为推出AI芯片Ascend 310(昇腾310),这是达芬奇架构的初次露脸。

  其间,Da Vinci Core仅仅NPU的一个部分,Da Vinci Core内部还细分红许多单元,包含中心的3D Cube、Vector向量核算单元、Scalar标量核算单元等,它们各自担任不同的运算使命完结并行化核算模型,一起保证AI核算的高效处理。

  • 3D Cube矩阵乘法单元:算力担任

  方才现已说到,矩阵乘是AI核算的中心,这部分运算由3D Cube完结,Buffer L0A、L0B、L0C则用于存储输入矩阵和输出矩阵数据,担任向Cube核算单元运送数据和寄存核算成果。

  • Vector向量核算单元:灵敏的多面手

  尽管Cube的算力很强壮,但只能完结矩阵乘运算,还有许多核算类型要依托Vector向量核算单元来完结。Vector的指令相对来说十分丰富,能够掩盖各种根本的核算类型和许多定制的核算类型。

  • Scalar标量核算单元:流程操控的管家

  Scalar标量运算单元首要担任AI Core的标量运算,功能上能够看作一个小CPU,完结整个程序的循环操控,分支判别,Cube、Vector等指令的地址和参数核算以及根本的算术运算等。科普3:3D Cube核算方法的共同优势是什么?不同于以往的标量、矢量运算形式,华为达芬奇架构以高性能3D Cube核算引擎为根底,针对矩阵运算进行加快,大幅进步单位面积下的AI算力,充沛激发端侧AI的运算潜能。以两个N*N的矩阵A*B乘法为例:假如是N个1D 的MAC,需求N^2(即N的2次方)的cycle数;假如是1个N^2的2D MAC阵列,需求N个Cycle;假如是1个N维3D的Cube,只需求1个Cycle。

图中核算单元的数量仅仅暗示,实践可灵敏规划

  华为立异规划的达芬奇架构将大幅进步算力,16*16*16的3D Cube能够明显进步数据利用率,缩短运算周期,完结更快更强的AI运算。

  这是什么意思呢?举例来说,同样是完结4096次运算,2D结构需求64行*64列才干核算,3D Cube只需求16*16*16的结构就能算出。其间,64*64结构带来的问题是:运算周期长、时延高、利用率低。达芬奇架构的这一特性也完美体现在麒麟810上。作为首款选用达芬奇架构NPU的手机SoC芯片,麒麟810完结微弱的AI算力,在单位面积上完结最佳能效,FP16精度和INT8量化精度业界抢先,搭载这款SoC芯片的华为Nova 5、Nova 5i Pro及荣耀9X手机已上市,为广阔顾客供给多种精彩的AI运用体会。一起,麒麟810再度赋能HiAI生态,支撑自研中心算子格局IR敞开,算子数量多达240+,处于业界抢先水平。更多算子、开源结构的支撑以及供给愈加齐备的东西链将助力开发者快速转化集成根据不同AI结构开宣布的模型,极大地增强了华为HiAI移动核算渠道的兼容性、易用性,进步开发者的功率,节省时刻本钱,加快更多AI运用的落地。

  预见:达芬奇架构解锁AI无限或许

  根据灵敏可扩展的特性,达芬奇架构能够满意端侧、边际侧及云端的运用场景,可用于小到几十毫瓦,大到几百瓦的练习场景,横跨全场景供给最优算力。

  以Ascend芯片为例,Ascend-Nano能够用于耳机电话等IoT设备的运用场景;Ascend-Tiny和Ascend-Lite用于智能手机的AI运算处理;在笔记本电脑等算力需求更高的便携设备上,由Ascend-Mini供给算力支撑;而边际侧服务器上则需求由Multi-Ascend 310完结AI核算;至于超杂乱的云端数据运算处理,则交由算力最高可达256 TFLOPS@FP16的Ascend-Max来完结。

  正是因为达芬奇架构灵敏可裁剪、高能效的特性,才干完结对上述多种杂乱场景的AI运算处理。一起,挑选开发共同架构也是一个十分要害的决议计划。共同架构优势很明显,那就是对广阔开发者十分利好。根据达芬奇架构的共同性,开发者在面临云端、边际侧、端侧等全场景运用开发时,只需求进行一次算子开发和调试,就能够运用于不同渠道,大幅降低了搬迁本钱。

  不只开发渠道言语共同,练习和推理结构也是共同的,开发者能够将很多练习模型放在本地和云端服务器,再将轻量级的推理作业放在移动端设备上,取得共同的开发体会。

  在算力和技能得到突破性进步后,AI将广泛运用于才智城市、自动驾驶、才智新零售、机器人、工业制作、云核算AI服务等场景。华为轮值董事长徐直军在2018华为全联接大会上表明,“全场景意味着能够完结智能无所不及,全栈意味着华为有才干为AI运用开发者供给强壮的算力和运用开发渠道;有才干供给我们用得起、用得好、用得定心的AI,完结普惠AI”。未来,AI将运用愈加广泛的范畴,并逐步掩盖至日子的方方面面。达芬奇架构作为AI运算的重要技能根底,将继续赋能AI运用探究,为各行各业的AI运用场景供给汹涌算力。8月23日,选用达芬奇架构的又一款“巨无霸”——AI芯片Ascend 910,将正式商用发布,与之配套的新一代AI开源核算结构MindSpore也将一起露脸,本年9月的华为全联接大会上,又将有哪些重量级新品呢?敬请重视!

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!