hdmi接口,革命性的DPU牛在哪?深度对话Wave Computing熊大鹏,上环后多久可以同房

admin 2019-03-31 阅读:222

智东西(大众号:zhidxcom)

文 | 心缘

写在前面:在成功举行国内首场AI芯片峰会「GTIChdmi接口,革命性的DPU牛在哪?深度对话Wave Computing熊大鹏,上环后多久可以同房 2018全球AI芯片立异峰会」之后,智东西联合AWE、极果将于3月15日在AWE期间于上海举行「GTIC 2019全球AI芯片立异峰高压电缆分支箱会」。到时,全球AI芯片范畴的20+位技术大牛和工业大咖齐聚,迁就AI芯片的生态构建、架构立异与运用落地进行论述和评论。大会前夕,智东西对大会嘉宾进行系列深度访谈,提早一睹他们的风貌和对工业的真知灼见。本期访谈嘉宾为Wave Computing我国总经理熊大鹏博士,Wave Computing CTO Dr. Chris Nicol到时会参与本届AI芯片立异峰会上午场。

在刚过去的一年,智能化的车轮继续向前翻滚,AI芯片作为载动AI开展的国家栋梁,依然是科技圈最炙手可热的论题之一。

跟着AI算法的快速演进,芯片架构立异现已成为国表里AI芯片玩家提高竞争力的一大焦点,新式的芯片架构正在兴起,力求打破CPU、GPU等芯片架构铸就的固若金汤。

怎么统筹传统架构的通用性,一同完结数量级的功用提高?在这之中,美国创企Wave Computing肯定是2018年AI芯片范畴一颗耀眼的明星,他们正在经过根据数据流(dataflow)技术的体系加快从数据中心到边际的AI深度学习核算。

伯伦不归

这家在2010年景立于美国加利福尼亚坎贝尔的公司,在上一年1月被Frost&Sull重庆长平机械厂ivan评为2018年“机器学习职业技术立异领导者青橙奖”,6月收买老牌芯片IP公司MIPS,8月泄漏7nm DPU开发计划,12月宣告完结8600万美元E轮融资,Wave总计融资金额已超越2亿美元。

近来,智东西对谈Wave Computing我国总经理熊大鹏博士,对架构立异的三类技术门户,其数据流驱动dataflow技术、以及完结dataflow技术的软件可动态重构处理器CGRA这一立异架构怎么打破功用和通用性的瓶颈等问题进行深化沟通。熊大鹏博士从其20多年的半导体从业经历中总结出AI芯片的三类技术门户,一同也叙述了MIPS开源计划背面的逻辑。

一、三类间谍仙师技术门户主导的干流AI芯片

熊大鹏博士于2018年参加Wave Computing任职我国子公司总经理。他具有美国德克萨斯大学奥斯汀分校航空航天工程博士学位。熊大鹏博士在半导体和体系工程范畴深耕20余年,在参加Wave之前,他曾在上海兆芯半导体公司、师傅好坏Apexone Microelectronics、美国ADC和华中科技大学任职,从事体系架构、芯片规划及产品策划等相关作业。

AI算法的快速开展,促进芯片架构立异成为必定需求,熊大鹏博士将当时的芯片架构分为三个技术门户。

第一个技术门户是CPU、GPU和FPGA。这一门户关于不同的算法、神经网络,具有必定的通用性。它的首要缺陷hdmi接口,革命性的DPU牛在哪?深度对话Wave Computing熊大鹏,上环后多久可以同房在于,无论是体系hdmi接口,革命性的DPU牛在哪?深度对话Wave Computing熊大鹏,上环后多久可以同房架构本身,仍是说数据传输通道及交流容量缺乏的问题等,都会导致其功率相对而言较低,实践能效遇到瓶颈。

第二个技术门户是专用芯片ASIC。一般ASIC处理计划是根据DSA(domain specific array/architecture)这样一种技术思路,即针对特定运用范畴优化的处理器架构,包括谷歌TPU在内的许多跨界造芯玩家均选用这种思路。

比较通用芯片,这种处理计划的优势在于对特定运用能明显提高能效比,但当秋兰赋遇到网络和算法改变较大的状况时,它在hdmi接口,革命性的DPU牛在哪?深度对话Wave Computing熊大鹏,上环后多久可以同房通用性上的缺乏会导致其面临不同形状的网络和算法时,能效李俞英体现千差万别。

现在混合型的模型正在越来越盛行。以才智无人值守超市为例,它往往需求面部辨认、行为辨认、轨道盯梢等多个不同功用的神经网络模型一同运转,终究将这些模型的运转将成果放在一同进行交融剖析。而相似于这样的运用,关于ASIC来说会有必定的技术挑战和门槛。

第三类是软件可动态重构核算(或者说“软件界说芯片”)。这也是清华大学微电子所所长、我国半导体职业协会IC规划分会理事长魏少军教授带领的团队早在十年前就开端研讨的技术。

这类技术门户的特点是,选用非冯诺依曼(von Neumann)架构,经过软件实时动态地操控不计其数个异步的处理器来构成具有特定功用的、并行处理的、数据驱动的核算流水线hdmi接口,革命性的DPU牛在哪?深度对话Wave Computing熊大鹏,上环后多久可以同房,最充沛运用芯片的算力,最大程度减少量据存储、传输和交流,完结较好的功率、通用性和可扩展性。

Wave Computing垂青并研讨的数据流(dataflow)架构正归于第三类技术门户。

二、从技术到产品,Wave的AI芯片生长之路

在详解dataflhdmi接口,革命性的DPU牛在哪?深度对话Wave Computing熊大鹏,上环后多久可以同房ow技术架构之前,咱们先说说Wave Computing是让怎么一步步树立AI芯片方向的。Wave Computing的生长可以分为两个阶段,第一个阶段是处理技术问题,第二个阶段是做出产品。

9年前,Wave C硫酸铷omputing刚成立不久,深度学习没有面世,这家公司的首要使命是处理一个革命性的技术问题——根据软件可动态重构处理器CGRA(Coarse grain reconfigurable array/accelerator)技术的大规模异步并行核算问题。

2014至2015年是一个分水岭。在此期间,他们用这一技术研发了一款选用28nm制程工艺的芯片样品,验证了其技术的可行性,可运用于大规模并行核算的数据发掘等范畴。

也是在这段时间内,Wave Computing意识到这一技术对深度学习和大规模核算的重要性,并意识到CGRA十分适用于完结数据流驱动dataflow技术架构,其AI芯片DPU(Dataflow Processing Unit)的产品方向至此树立。

根据dataflow技术架构芯片DPU的处理计划不只适用于数据中心,在边际核算方面也有一起的价值。一方面,AI对边际处理的才能要求越来越高;另一方面,AI不再仅仅单一模型的处理,现在更多的是相似contexual visual analysis,需求一同支撑多个不同的神经网络,对处理器的通用性和能效1183100的要求更高。

据熊大鹏博士介绍,Wave的单芯片处理计划DPU对边际核算来说十分适用,可以在确保较好通用性的一同,在相同价格、功耗的条件下,完结比GPU处理计划更高的能效、可扩展性和性价比。

三、DPU架构:适宜深度学习,比GPU更高效

CPU、GPU等传统的芯片,每完毕一阶段的核算使命,需求将数据输送到外部的DDR计数器存储,比及下一阶段再从头从计数器取出数据,处理完数据后再存回去,这样繁复的流程简单形成数据通道的拥堵,特别不适宜AI对巨量数据处理、传输和存储造口人一般能活多久的要求。这是典型的冯诺依曼(von Neumann)架构。根据数据流驱动dataflow技术的DPU选用非冯诺依曼(von Neumann)架构的软件可动态重构处理器CGRA(Coarse grain reconfigurable array/accelerator)技术,在最合理分配和运用算力的一同成倍节省了数据存储和传输带宽。熊大鹏博士表明,这一计划基本上能将芯片算力资源的运用功率确保在75帝出三江口%-80%以上。

详细而言,对一个完好的神经网络核算流程,对每个核算节点,可以事前分配好合理的资源,使得整个核算流程到达资源有效地运用。一同,每处理完一个使命节点,它会将数据直接传输到第二个使命节点的输入端,第二个使命处理完数据后,又会将使命送到第三个使命的输入端,就像pipeline似的,最大程度减少量据存储和传输。

熊大鹏博士打了一个形象的比如,做一百层神经网络核算就好像规划手机出产线的一百道工序。广阔戴志聪在每一道工序中,要确认做什么事、预备完结使命的东西以及物流分配方法。

首先是确认做什么事,出产手机时,要知道现在的使命是装置屏幕仍是按键。相同,DPU要先确认在神经网络的这一层是做池化、卷积仍是其他操作。

接下来,装手机需求电烙铁等适宜的东西。关于DPU来说,便是要把需求的乘法器、模块化核算等资源预备好,其存储空间就相hdmi接口,革命性的DPU牛在哪?深度对话Wave Computing熊大鹏,上环后多久可以同房当于手机出产线上寄存东西的东西台。

开端装置手机后,每完结一道工序后就进行判别,假如暂时用不到,就先将其送回存储器等候从头分配。假如接下来可以接着这道工序继续操作,就可以将半成品直接送到下一道工序。这儿的库房对DPU而言就相当于存取数据的DDR存储器。

经过对上述三步的细心规划,可将每一道工序的资源最大程度地运用。只需将数据放置到第一个工序的进口,它就会主动地进入到第二道、第三个直到一百道工序悉数完结,然后将终究成果输出。

此外,熊大鹏博士还介绍道,Wave供给根据dataflow技术架构的全体处理计划,会有一个独立的通用CPU模组来供给管司徒法正被鬼王卖理功用和数据预处理功用,但无需实时干涉DPU。

现在Wave现已落地商用的DPU选用16nm制程工艺,每个DPU具有16384个处理元件,面积为300多平方毫米,并以6 GHz的速度运转。其DPU与国表里多家云效劳商和AI公司均有严密协作,适宜轿车电子、才智医疗等各种杂乱、算力要求高的各类AI运用。

四、收买MIPS:是双赢

Wave Computing备受瞩目的一大原因,是其在上一年6月收买了老牌IP供给商MIPS。要知道,MIPS曾比ARM还要火,是三大处理器架构和渠道之一,只可惜在生态的比赛中渐显颓势。

Wave收买MIPS后不久,宣告了MIPS开源计划。熊大鹏博士表明,这是一个不可逆的开源计划,关于MIPS本身和Wave Computing而言会是个双赢的行动。既有助于MIPS树立更强壮的生态,又可以招引更多优异的公司做出更多根据MIPS的优异产品,一同也会促进Wave去开发更好、更适宜商场的IP,这关于Wave本身和整个工业都是很有价值。

环绕加快AI核算的方针,Wave计划将MIPS与AI相交融。因而,在开发新的MIPS IP的时分,Wave会有针对AI深度学习核算开发相应的MIPS扩展指令集。别的,除了会作为芯片内部的办理功用之外,MIPS IP也将被用到AI芯片DPU傍边,成为加快深度学习核算的重要组成。

据熊大鹏博士介绍,MIPS架构在虚拟化和多线程处理等技术上具有一起的优越性,运用MIPS核加针对深度学习的扩展指令集,一般就足以满意许多终端设备对AI算力的需求。

以轿车电子为例,Wave Computin洪喆君g供给两类MIPS CPU内核,包括域操控器电子操控单元(ECU)和用于高档驾驭辅佐碧海雅韵体系(ADAS)的主动驱动域操控器,旨在处理轿车制造商在边际安全性和智能处理方面的一起难点。

因为主动驾驭包括激光雷达、红外线、高清摄像头号多个器材,而MIPS在多使命切换、延时等方面的功用体现十分超卓,因而在主动驾驭范畴的运用越来越广泛。本年2月,Wave宣告其MIPS处理上海巨鹿花园别墅器技术使80%以上的车辆装备了当今抢先轿车制造商的高档驾驭员辅佐体系(ADAS)。

除了供给无与伦比的功用外,Wave的AI数据流技术与MI雪妍熙PS的IP架构的交融还经过供给单一、线性可扩展且高效的AI核算渠道,该渠道可以将AI功用扩展到其他主动驾驭车辆功用。

Wave现已具有MIPS的400多项专利授权,并会为开源社区的成员供给专利维护。 作为MIPS开源计划的首要推进者,Wave将约请业界闻名的企业、高校等一起推进技术的开展和生态的建造。关于MIPS开源计划的详细细节,Wave Computing会在本年3月广州大学数字广阔月底发布。

结语:立异架构出现,AI芯片的未来趋势在哪里?

在核算体系结构继续演进的过程中,AI算法的高速生长对AI芯片功用提出了越来越高的需求,CPU、GPU等干流芯片架构早已不再是仅有挑选。

AI技术无疑成为这个年代新的催化剂,催生出新一轮架构立异风潮。无论是半导体巨子仍是新式AI创企,都在积极探索统筹功用、通用性、灵活性与本钱的可行计划。

新一轮选用立异架构的AI芯片产品的落地潮行将到来,假如真实把握厚实的芯片技术,一同对产品有着精确的界说和规划,成为AI芯片新的引领者并不是什么想入非非的事。

GTIC 2019全球AI芯片立异峰会将于3月15日在上海举行,Wave Computing高档副总裁兼CTO Chris Nicol博士将到会峰会并宣布主题讲演,咱们等待Chris Nicol共享关于革命性的AI深度学习核算加快架构dataflow技术和处理器DPU的更多细节。

公司 开发 技术
声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。