企业公告

英亚体育|比特币太火爆,聊天应用Kik也打算自建数字货币 SpaceX载人版龙飞船成功发射升空 COMPUTEX2017聚焦物联网及人工智能 顶级厂商惊喜亮相 纽约人不要亚马逊总部_英亚体育 英亚体育登录:杜比影院对飙IMAX,谁才是极致视听体验的未来 2019年译协会年会圆满落幕,Transn传神“链”接语言服务孪生智能未来 微软Buildvs谷歌I/O:熊熊燃烧的AI战火|英亚体育登录 英亚体育登录-亚马逊AlexaAI负责人AshwinRam将离职加入Google云 英亚体育 |英亚体育登录_IDC预测今年亚太智慧城市投入将达300亿美元,BAT各地签署战略合作|智慧城市周报 『预见』阿里云下一个十年【英亚体育 |英亚体育登录】 【英亚体育 |英亚体育登录】Intel被指蓄意减产导致奔腾G4560涨价回应:需求太旺 抖音海外版TikTok破解封禁在印尼恢复服务|英亚体育登录 电商巨头Shopify宣布加入Libra数字货币计划|英亚体育 芜湖大司马鬼畜视频双皮棍完整视频 鬼畜大司马搞笑最新视频_英亚体育 英亚体育_多方压制后AI开发者大会是百度的抽冷子重拳吗? 追赶谷歌Waymo通用汽车无人驾驶汽车在快速改进_英亚体育登录 牛逼了,苏格兰计划2032年淘汰汽油和柴油车|英亚体育 |英亚体育登录 iOS开发者向苹果发起集体诉讼;华为否认削减手机产量;百度副总裁郑子斌将离职|雷锋早报:英亚体育登录 英亚体育 |英亚体育登录_5G无线:从Sub-6GHz到毫米波市场机遇与技术挑战 英亚体育|开放Cortex-M0处理器,ARM让人人都能设计芯片

一窥ARM的AI处理器:英亚体育

作者: 英亚体育   时间:2020-12-07   浏览:54171

英亚体育 |英亚体育登录|,[1]中获取的信息是,“The team is tracking research on data types down to 1-bit precision, including a novel 8-bit proposal from Microsoft. So far, the alternatives lack support in tools to make them commercially viable, said Laudick.”因此在第一版的MLP中,应当也会看见较低精度或者Bit-serial MAC了(参照AI芯片进年中对ISSCC2018经常出现的Bit-serial Processing的讲解)。此外,数据的传输和对工艺的优化也是提升整体效率的主要手段。

尤其是工艺的优化,融合ARM的工艺库,应当有较为好的效果,这也是ARM有优势的地方。PLE构建高效的可编程性如下图右图,PLE的结构基本是在一个ARM MCU基础上拓展了Vector处置和NN处置的指令。

在辩论可编程性的时候,其出发点主要是NN算法和架构目前还在大大演变。我们前面早已分析了整个MLP的基本工作流程,MCE在已完成了运算之后把结果传输给PLE。从这里可以显现出,MCE应当是把结果发送到Vector Register File(VRF),然后产生中断通报CPU。

英亚体育 |英亚体育登录

之后,CPU启动Vector Engine对数据展开处置。明确如下图右图。

对于做到专用处理器的同学来说,这种scalar CPU+vector engine的架构并不陌生。这里,本地SRAM,VRF和PLE之外的Maing SRAM Unit(CE中的SRAM)之间有Load/Store单元和uDMA构建数据的传输,数据流也是较为灵活性的。综合来看,在MLP中,每个CE中都有一个PLE和MCE因应,即每个MCE(128个MAC)就对应一个可编程架构。

因此,ARM MLP的可编程性和灵活性是要远高于Google TPU1和Nvidia的NVDLA的。当然,灵活性也意味著更加多额外的支出,如[1]中认为的,“The programmable layer engine (PLE) on each slice of the core offers “just enough programmability to perform [neural-net] manipulations””。High-efficient Programmability是MLP的一个主要卖点之一,而ARM的“just enough”否感叹合适的自由选择,还有待更进一步仔细观察。

其它信息在这次公布中信息中,ARM还特别强调了他们在数据压缩方面的考虑到,还包括对lossless compression的硬件反对。这部分内容我在之前的文章中也有较为多的辩论,就仍然赘述了,张贴几张较为有意思的图,大家想到。 作为一个IP核,可配备性(configurability)是一个最重要的特征。

目前还不告诉MLP有哪些硬件参数可以反对灵活性配备。Compute Engine的数量,MAC数量,SRAM大小,这些较为大的参数应当有可能是反对配备的。其它更加精细的内容还要看最后公布的情况。另外,这些参数的配备和涉及的软件工具有十分紧密的关系,更好的可配备参数也意味著软件工具必须适当的反对,可玩性更大。

[2]回应的众说纷纭:“In terms of scalability the MLP is meant to come with configurable compute engine setups from 1 CE up to 16 CEs and a scalable SRAM buffer up to 1MB. The current active designshoweverare the 16CE and 1MB configurations and smaller scaled down variants will happen later on in the product lifecycle.”竞争态势除了较为中规中矩的性能指标外,ARM还没发布MLP明确的面积,功耗等参数,以及明确公布的日期(目前的众说纷纭是“production release of the RTL is on track for mid-year”)。在这个早已较为“挤迫”的市场,ARM似乎是动作比较慢的。

[1]一开始就提及了,“Analysts generally praised the architecture as a flexible but late response to a market that is already crowded with dozens of rivals.”并列出了一些竞争对手的例子。只不过,从ARM在处理器IP市场和整个生态链的关键地位来看,晚一点关系也并不大。如[1]所说,一方面,ARM正在和一些智能手机厂商展开深度的合作,“In a sign of Arm’s hunger to unseat its rivals in AI, the company has “gone further than we normally would, letting [potential smartphone customers] look under the hood””。ARM的另一个最重要优势是,ARM在发售MLP之前在软件工具上还是有一些打算的,还包括armnn和开源的计算出来库等等,如下图。

英亚体育 |英亚体育登录

这些工具的普遍用于都可以协助ARM累积经验,优化硬件和软件工具。正如[1]中提到来自ARM的众说纷纭,“Winningthe hearts and minds of software developers is increasingly key in getting design wins for hardware sockets...This is kind of the start of software 2.0. For a processor company, that is cool. But it will be a slow shift,there’s a lot of things to be worked out, and the software and hardware will move in steps.”我们也看见,目前大量的映射AI应用于还是运营在ARM的各种硬件上的,很多公司在涉及算法和构建的优化上投放了相当大的力量,也获得了很好的效果。

当然这样带给另一个有意思的问题,那就是未来引进MLP之后,ML任务究竟放在哪里跑完?有所不同特点的处理器怎么因应?文章中正好也提及这个问题,“Arm will release more data on the core’s performance when it is launched, probably in mid-June. But don’t expect detailed guidance onwhen to run what AI jobs on its CPU, GPU, or new machine-learning cores, a complex issue that the company, so far, is leaving to its SoC and OEM customers.” 显然这个“难题”短期之内还是扔给用户了。另外一个有一点注目细节是,[1]中提及,“Theoretically, the design scales from 20 GOPS to 150 TOPS, but the demand for inference in the Internet of Things will pull it first to the low end.Armis still debating whether it wants to design a core for the very different workloads of the datacenterthat includes training. “We are looking at [a datacentercore], but it’s a jump from here,” and its still early days for thoughts on a design specific for self-driving cars, said Laudick.”从这里可以显现出,最少MLP在处置能力上还是具备较为强劲的伸缩性的,应当可以覆盖面积从Edge到Cloud的大部分的inference应用于。

如果是最低的150TOPS,MAC的规模应当和Google第一代Inference专用的TPU类似于,不过比起Google的脉动阵列架构,MLP有更加简单的掌控地下通道,灵活性还是要低不少。不告诉未来,这不会会协助ARM关上data center的inference市场。参照:1.Arm Gives Glimpse of AI Core2.ARM Details “Project Trullium” Machine Learning Processor Architecture录:唐杉博士具备 15 年以上的芯片设计经验,在 3G/4G 通信基带处置,专用处理器 ASIP,多核 SoC架构,ESL 级设计和 Domain-specific 计算出来等方面有深入研究和实际经验。将近一年多来主要注目 Deep Learning 处理器和涉及技术。

现在注目“”微信公众号(leiphone-sz),恢复关键词【2018】,随机抽送价值 3999 元的与会门票 3 张版权文章,予以许可禁令刊登。下文闻刊登须知。

-英亚体育 |英亚体育登录。

本文来源:英亚体育登录-www.eb5workshop.com

返回首页