随着大数据的发展,计算能力的提高,AI算法更进一步成熟期,谁守住了AI芯片高地,谁就享有了市场主导权。纵观AI芯片市场,堪称战火争相,群雄逐鹿。
一、AI芯片整体规模 据前瞻产业研究院公布的《中国人工智能行业市场前瞻与投资战略规划分析报告》统计数据表明,2015中国人工智能市场规模已突破100亿元,到了2016年人工智能市场规模超过142亿元,累计到2017年人工智能市场规模超过了217亿元,预计2018年人工智能市场规模将约339亿元,并预测在2019、2020年人工智能市场规模将约500亿元、710亿元。2015-2020年填充年均增长率为44.5%。
麦肯锡(McKinsey)的预测表明出有难以置信的数据:2017年至2025年,人工智能类半导体将沦为半导体市场的领头羊,其年填充增长率将比其它所有半导体的总和高达5倍。Tractica的一项调查将更进一步理解了这种快速增长:将中央处理器(CPU)与图形处理器、现场可编程门阵列、特定用途集成电路展开较为。到2019年,基于中央处理器的营业额将从30亿美元左右跟上,到2025年将快速增长到120亿美元左右。
基于图形处理器的系统(GPU)的收益将在2019年相似60亿美元,到2025年将快速增长到大约200亿美元。现场可编程门阵列(FPGA)的贡献十分小,到2025年有可能只有10亿美元左右。但特定用途集成电路(ASIC)市场份额将从2019年的大约20亿美元快速增长到2025年的大约300亿美元。到2022年左右,基于特定用途集成电路的人工智能将在份额上多达基于图形处理器的人工智能。
二、市场发展环境 我国人工智能新一轮受到影响政策于是以密集落地。《经济参考报》记者得知,2019年年初,还包括成都、浙江在内的多个省市陆续实施人工智能产业发展规划,着力增大智能芯片、智能传感器等基础层技术研制成功与资金反对,减缓培育人工智能产业核心区区和领军企业。业内预计,以基础层为核心的AI芯片投资空间辽阔。
三、AI芯片市场需求及企业竞争状况 目前AI芯片的市场需求主要是三类: 1、面向于各大人工智能企业及实验室研发阶段的Training市场需求(主要是云端,设备末端Training市场需求尚能不具体); 2、InferenceOnCloud,Face++、外出问问、Siri等主流人工智能应用于皆通过云端获取服务; 3、InferenceOnDevice,面向智能手机、智能摄像头、机器人/无人机、自动驾驶、VR等设备的设备末端推理小说市场,必须高度自定义化、低功耗的AI芯片产品。如华为麒麟970配备了神经网络处理单元(NPU,实际为寒武纪的IP)、苹果A11配备了神经网络引擎(NeuralEngine)。
(一)Training训练 2007年以前,人工智能研究受限于当时算法、数据等因素,对于芯片并没尤其反感的市场需求,标准化的CPU芯片才可获取充足的计算能力。AndrewNg和JeffDean打造出的GoogleBrain项目,用于包括16000个CPU核的并行计算平台,训练多达10亿个神经元的深度神经网络。但CPU的串行结构并不限于于深度自学所需的海量数据运算市场需求,用CPU做到深度自学训练效率很低,在早期用于深度自学算法展开语音辨识的模型中,享有429个神经元的输出层,整个网络享有156M个参数,训练时间多达75天。
与CPU少量的逻辑运算单元比起,GPU整个就是一个可观的计算出来矩阵,GPU具备数以千计的计算出来核心、可实现10-100倍应用于吞吐量,而且它还反对对深度自学至关重要的并行计算能力,可以比传统处理器更为较慢,大大减缓了训练过程。 从上图对比来看,在内部结构上,CPU中70%晶体管都是用来建构Cache(高速缓冲存储器)和一部分掌控单元,负责管理逻辑运算的部分(ALU模块)并不多,指令继续执行是一条相接一条的串行过程。GPU由并行计算单元和掌控单元以及存储单元包含,享有大量的核(多达几千个)和大量的高速内存,擅长于做到类似于图像处理的并行计算,以矩阵的分布式形式来构建计算出来。
同CPU有所不同的是,GPU的计算出来单元显著激增,尤其合适大规模并行计算。 人工智能的标准化计算出来GPU市场,NVIDIA现在一家独大。
2010年NVIDIA就开始布局人工智能产品,2014年公布了新一代PASCALGPU芯片架构,这是NVIDIA的第五代GPU架构,也是首个为深度自学而设计的GPU,它反对所有主流的深度自学计算出来框架。2016年上半年,NVIDIA又针对神经网络训练过程发售了基于PASCAL架构的TESLAP100芯片以及适当的超级计算机DGX-1。
DGX-1包括TESLAP100GPU加速器,使用NVlink网络技术,软件堆栈包括主要深度自学框架、深度自学SDK、DIGITSGPU训练系统、驱动程序和CUDA,需要较慢设计深度神经网络(DNN),享有高达170TFLOPS的半精度浮点运算能力,相等于250台传统服务器,可以将深度自学的训练速度减缓75倍,将CPU性能提高56倍。 Training市场目前能与NVIDIA竞争的就是Google。今年5月份Google公布了TPU2.0,TPU(TensorProcessingUnit)是Google研发的一款针对深度自学加快的ASIC芯片,第一代TPU仅有能用作推理小说,而目前公布的TPU2.0既可以用作训练神经网络,又可以用作推理小说。据介绍,TPU2.0还包括了四个芯片,每秒可处置180万亿次浮点运算。
Google还寻找一种方法,用于新的计算机网络将64个TPU人组到一起,升级为所谓的TPUPods,可获取约11500万亿次浮点运算能力。Google回应,公司新的深度自学翻译成模型如果在32块性能最差的GPU上训练,必须一整天的时间,而八分之一个TPUPod就能在6个小时内已完成某种程度的任务。
目前Google并不必要出售TPU芯片,而是融合其开源深度自学框架TensorFlow为AI开发者获取TPU云加快的服务,以此发展TPU2的应用于和生态,比如TPU2同时公布的TensorFlowResearchCloud(TFRC)。 上述两家以外,传统CPU/GPU厂家Intel和AMD也在希望转入这Training市场,如Intel发售的XeonPhi+Nervana方案,AMD的下一代VEGA架构GPU芯片等,但从目前市场进展来看很难对NVIDIA构成威胁。初创公司中,Graphcore的IPU处理器(IntelligenceProcessingUnit)据介绍也同时反对Training和Inference。
该IPU使用同构多核架构,有多达1000个独立国家的处理器;反对All-to-All的核间通信,使用BulkSynchronousParallel的实时计算出来模型;使用大量片上Memory,不必要相连DRAM。 总之,对于云端的Training(也还包括Inference)系统来说,业界较为完全一致的观点是竞争的核心不是在单一芯片的层面,而是整个软硬件生态的搭起。NVIDIA的CUDA+GPU、Google的TensorFlow+TPU2.0,巨头的竞争也才刚刚开始。
(二)InferenceOnCloud云端推理小说 相对于Training市场上NVIDIA的一家独大,Inference市场竞争则更加集中。若像业界所说的深度自学市场占到比(Training占到5%,Inference占到95%),Inference市场竞争必定不会更加白热化。 在云端推理小说环节,虽然GPU仍有应用于,但并不是拟合自由选择,更好的是使用异构计算方案(CPU/GPU+FPGA/ASIC)来已完成云端推理小说任务。
FPGA领域,四大厂商(Xilinx/Altera/Lattice/Microsemi)中的Xilinx和Altera(被Intel并购)在云端加快领域优势显著。Altera在2015年12月被Intel并购,随后发售了Xeon+FPGA的云端方案,同时与Azure、腾讯云、阿里云等皆有合作;Xilinx则与IBM、百度云、AWS、腾讯云合作较了解,另外Xilinx还战略投资了国内AI芯片初创公司深鉴科技。目前来看,云端加快领域其他FPGA厂商与Xilinx和Altera还有相当大差距。 ASIC领域,应用于云端推理小说的商用AI芯片目前主要是Google的TPU1.0/2.0。
其中,TPU1.0仅有用作DatacenterInference应用于。它的核心是由65,536个8-bitMAC构成的矩阵乘法单元,峰值可以超过92TeraOps/second(TOPS)。有一个相当大的片上存储器,一共28MiB。
它可以反对MLP,CNN和LSTM这些少见的神经网络,并且反对TensorFLow框架。它的平均值性能(TOPS)可以超过CPU和GPU的15到30倍,能耗效率(TOPS/W)想去30到80倍。如果用于GPU的DDR5memory,这两个数值可以超过约GPU的70倍和CPU的200倍。TPU2.0既用作训练,也用作推理小说,上一节早已做到过讲解。
国内AI芯片公司寒武纪科技据报导也在自律研发云端高性能AI芯片,目前与科大讯飞、曙光等皆有合作,但目前还没详尽的产品讲解。 (三)InferenceOnDevice设备末端推理小说 设备末端推理小说的应用于场景更加多样化,智能手机、ADAS、智能摄像头、语音交互、VR/AR等设备市场需求各异,必须更加自定义化、低功耗、低成本的嵌入式解决方案,这就给了创业公司更加多机会,市场竞争生态也不会更为多样化。 1)智能手机 华为9月初公布的麒麟970AI芯片就配备了神经网络处理器NPU(寒武纪IP)。
麒麟970使用了TSMC10nm工艺制程,享有55亿个晶体管,功耗比起上一代芯片减少20%。CPU架构方面为4核A73+4核A53构成8核心,能耗同比上一代芯片获得20%的提高;GPU方面使用了12核MaliG72MP12GPU,在图形处理以及能效两项关键指标方面分别提高20%和50%;NPU使用HiAI移动计算出来架构,在FP16下获取的运算性能可以超过1.92TFLOPs,比起四个Cortex-A73核心,处置某种程度的AI任务,有约50倍能效和25倍性能优势。 苹果近期公布的A11仿生芯片也配备了神经网络单元。
据介绍,A11仿生芯片有43亿个晶体管,使用TSMC10纳米FinFET工艺制程。CPU使用了六核心设计,由2个高性能核心与4个低能效核心构成。比起A10Fusion,其中两个性能核心的速度提高了25%,四个能效核心的速度提高了70%;GPU使用了苹果自主设计的三核心GPU图形处理单元,图形处理速度与上一代比起最低提高平均30%之多;神经网络引擎NPU使用双核设计,每秒运算次数最低平均6000亿次,主要用作胜任机器学习任务,需要辨识人物、地点和物体等,需要承担CPU和GPU的任务,大幅度提高芯片的运算效率。
另外,高通从2014年开始也公开发表了NPU的研发,并且在近期两代骁龙8xx芯片上都有所反映,例如骁龙835就构建了骁龙神经处置引擎软件框架,获取对自定义神经网络层的反对,OEM厂商和软件开发商都可以基于此打造出自己的神经网络单元。ARM在今年所公布的Cortex-A75和Cortex-A55中也带入了自家的AI神经网络DynamIQ技术,据介绍,DynamIQ技术在未来3-5年内可实现比当前设备低50倍的AI性能,可将特定硬件加速器的反应速度提高10倍。总体来看,智能手机未来AI芯片的生态基本可以推断仍不会掌控在传统SoC商手中。
2)自动驾驶 NVIDIA去年公布自动驾驶研发平台DRIVEPX2,基于16nmFinFET工艺,功耗高达250W,使用水冷风扇设计;反对12路摄像头输出、激光定位、雷达和超声波传感器;CPU使用两颗新一代NVIDIATegra处理器,当中还包括了8个A57核心和4个Denver核心;GPU使用新一代Pascal架构,单精度计算能力超过8TFlops,打破TITANX,有后者10倍以上的深度自学计算能力。Intel并购的Mobileye、高通并购的NXP、英飞凌、瑞萨等汽车电子巨头也获取ADAS芯片和算法。初创公司中,地平线的深度自学处理器(BPU,BrainProcessorUnit)IP及其自研雨果(Hugo)平台也是重点面向自动驾驶领域。 3)计算机视觉领域 Intel并购的Movidius是主要的芯片提供商,大疆无人机、海康威视和大华股份的智能监控摄像头皆用于了Movidius的Myriad系列芯片。
目前国内做到计算机视觉技术的公司中,商汤科技、Face++、云从、依图等,未来有可能随着其自身计算机视觉技术的累积渐深,部分公司向上游伸延去做到CV芯片研发。另外,国内还有如人人智能、智芯原动等创业公司获取摄像头端的AI加快IP及芯片解决方案。
4)其他 VR设备芯片的代表为微软公司为自身VR设备Hololens而研发的HPU芯片,这颗由台积电代工的芯片能同时处置来自5个摄像头、一个深度传感器以及运动传感器的数据,并不具备计算机视觉的矩阵运算和CNN运算的加快功能;语音交互设备芯片方面,国内有启英泰伦以及云知声两家公司,其获取的芯片方案皆内置了为语音辨识而优化的深度神经网络加快方案,构建设备的语音离线辨识;在绿IOT领域,NovuMind设计了一种仅有用于33卷积过滤器的AI芯片,第一款芯片原型预计今年底发售,预计可实现耗电不多达5瓦展开15万亿次浮点运算,可以普遍应用于各类小型的互联网边缘设备。 (四)新的架构-类脑计算出来芯片 类脑芯片是指参照人脑神经元结构和人脑感官理解方式来设计的芯片,其目标是研发出有超越冯诺依曼架构体系的芯片。
这一领域目前仍正处于探寻阶段,如欧盟反对的SpiNNaker和BrainScaleS、斯坦福大学的Neurogrid、IBM公司的TrueNorth以及高通公司的Zeroth等;国内Westwell、清华大学、浙江大学、电子科技大学等也有涉及研究。 IBM的TrueNorth,2014年发布。在一颗芯片上构建了4096个内核,100万个神经元、2.56亿个可编程神经元,用于了三星的28nm的工艺,共540万个晶体管;每秒可继续执行460亿次神经元运算,总功耗为70mW,每平方厘米功耗20mW。
IBM的最终目标就是期望创建一台包括100亿个神经元和100万亿个神经元的计算机,这样的计算机要比人类大脑的功都强劲10倍,而功耗只有一千瓦,而且重量将近两升。 国内AI初创公司西井科技Westwell是用FPGA仿真神经元以构建SNN的工作方式,有两款产品: 1、仿生类脑神经元芯片DeepSouth(深南),第三代脉冲神经网络芯片SNN,基于STDP(spike-time-dependentplasticity)的算法建构原始的神经元神经网络,由电路仿真现实生物神经元产生脉冲的仿生学芯片,通过动态分配的方法能模拟出高达5000万级别的神经元,功耗为传统芯片在同一任务下的几十分之一到几百分之一。
2、深度自学类脑神经元芯片DeepWell(深井),处置模式识别问题的标准化智能芯片,基于在线伪逆矩阵解法算法(OPIUMlite)对芯片中神经元间的相连权重展开自学和调整;挟12800万个神经元,通过专属指令集调整芯片中神经元资源的分配;自学与辨识速度相比之下低于运营在标准化硬件(如CPU,GPU)上的传统方法(如CNN),且功耗更加较低。 总体来看,类脑计算出来芯片领域仍正处于探寻阶段,距离规模化商用仍有较为近的距离。
本文来源:优发国际官网-www.xinbiqugew.com
多建在城郊或风景区,中国古代称别业、别馆,3 世纪,意大利山坡地带出现台阶式别墅。中国西晋出现别墅,如洛阳石崇的金谷别墅。此外,历代著名的...
多建在城郊或风景区,中国古代称别业、别馆,3 世纪,意大利山坡地带出现台阶式别墅。中国西晋出现别墅,如洛阳石崇的金谷别墅。此外,历代著名的...
多建在城郊或风景区,中国古代称别业、别馆,3 世纪,意大利山坡地带出现台阶式别墅。中国西晋出现别墅,如洛阳石崇的金谷别墅。此外,历代著名的...
多建在城郊或风景区,中国古代称别业、别馆,3 世纪,意大利山坡地带出现台阶式别墅。中国西晋出现别墅,如洛阳石崇的金谷别墅。此外,历代著名的...
Copyright © 2003-2023 www.xinbiqugew.com. 优发国际官网科技 版权所有 地址:广东省河源市利辛县依所大楼45号 ICP备40630237号-6