首页 体育世界正文

a股,全球十大AI练习芯片大盘点:华为昇腾910是我国仅有当选,精英家教网

来历:内容转载自大众号「QbitAI」,「量子位」报导,编辑整理:乾明,谢谢。

AI芯片哪家强?现在,有直接的比照与参阅了。

英国一名资深芯片工程师James W. Hanlon,盘点了当时十大AI操练芯片。

并给出了各个目标的横向比照,也是现在对AI操练芯片最新的评论与整理。

其间,华为昇腾910是我国芯片厂商仅有中选的芯片,其功用怎么,也在这一比照中有了展示。

*代表估测,†代表单芯片数据。

Cerebras Wafer-Scale Engine

这一芯片于本年8月份正式问世,被称为邹友开与祖海结婚照“史上最大AI芯片”,名为“晶圆级引擎”(Cerebra芳华帅哥s Wafer Scale Engine,简称WSE)。

其最大的特征是将逻辑运算、通讯和存储器集成到单个硅片上快穿蛊惑,是一种专门用于深度学习的芯片。

一举创下4项世界纪录:

  • 晶体管数量最多的运算芯片:一共包括1.2万亿个晶体管。尽管三星曾造出2万亿个晶体管的芯片,却是用于存储的eUFS。

  • 芯片面积最大:尺度约20厘米23厘米,总面积46225平方毫孙立石米。

  • 片上缓存最大:包括18GB的片上Sa股,全球十大AI操练芯片大盘点:华为昇腾910是我国仅有中选,精英家教网RAM存储器。

  • 运算中心最多:包括410,592个处理中心

之所以能够有如此亮眼的数据,直接得益于其集成了84个高速互连的芯片,单个芯片在FP32上的峰值功用体现为40 Tera FLOPs,芯片功率达15千瓦,与AI集群适当。

片上缓存也到达了18GB,是G豆贝教育网PU缓存的3000倍;可供给每秒9PB的内存带宽, 比GPU快10,000倍。

晶片规划集成,并不是一个新的主意,但产值、功率传输和热膨胀相关的问题使其很难商业化。在这些方面,Cerebras都给出了相应的处理办法:

  • 为了韦昭尤悉数风水视频处理缺点导致良率不高的问题,Cerebras在规划的芯片时分考虑了1~1.5%的冗余,添加了额定的中心,当某个中心出现问题时将其屏蔽不必,因而有杂质不会导致整个芯片作废。

  • Cerebras与台积电协作发明晰新技术,来处理具有万亿加晶体管芯片的刻蚀和通讯问题。

  • 在芯片上方装置了一块“冷却板”,运用多个笔直装置的水管直接冷却芯片。

Cerebras公司由Sean Lie(首席硬件架构师)、Andrew Feldman(首席履行官)等人于2016年创立。后者曾创立微型服务器公司SeaMicro,并以3.34亿美元的价格出售给AMD。

该公司在加州有194名职工,其间包括173名工程师,迄今为止现已从Benchmara股,全球十大AI操练芯片大盘点:华为昇腾910是我国仅有中选,精英家教网k等风投组织获得了1.12亿美元的出资。

Google TPU(v1、v2、v3)

Google TPU系列芯片正式发布于2016年,榜首代芯片TPU v1只用于推理,而且只支撑整数运算。

经过在PCIe-3之间发送指令来履行矩阵乘法和运用激活函数,然后为主机CPU供给加快,节省了很多的规划和验证时刻。其首要数据为:

  • 芯片面积331平方毫米,28nm制程

  • 频率为700 MHz,功耗28-40W

  • 片上存储为28 MB SRAM:24MB 用于激活,4MB 用于累加

  • 芯片面积份额:35%用于内存,24%用于矩阵乘法单元,剩余的41%面积用于逻辑。

  • 256x256x8b缩短矩阵乘法单元(64K MACs/cycle)

  • Int8和 INT16算法(峰值分别为92和23 TOPs/s)

IO数据:

  • 能够经过两个接沈沛琴口拜访8 GB DDR3-2133 DRAM,速度为34 GB/s

  • PCIe-3x16 (14 GBps)

2017年5月,Google TPU v2发布,改进了TPU v1的浮点运算才能,并增强了其内存容量、带宽以及HBM 集成内存,不只能够用于推理,也能够用于操练。其单个芯片的数据如下:

  • 20nm制程,功耗在200-250W(估测)

  • BFloat16上功用体现为45 TFLOPs,也支撑 FP32

  • 具有标量和矩阵单元的双核

  • 集成4块芯片后,峰值功用为180 TFLOPs

单核数据:

  • 128x128x32b缩短矩阵单元(MXU)

  • 8GB专用HBM,接入带宽300 GBps

  • BFl心爱宝物看医生oat16上的最大吞吐量为22.5 TFLOPs

IO数据:

  • 16Gb HBM集成内存,600 GBps带宽(估测)

  • PCIe-3 x8 (8 GBps)

Google TPU v2发布一年之后,Google再度发布新版芯片——TPU v3。

但关于TPU v3的细节很少,很可能仅仅对TPU v2一个渐进式改版,功用体现翻倍,增加了HBM2内存使容量和带宽翻倍。其单个芯片的数据如下:

  • 16nm或12nm制程,功耗估量在200W

  • BFloat16的功用为105 TFLOPs,可能是MXUs的2倍到4倍

  • 每个MXU都能拜访8GB的专用内存

  • 集成4个芯片后,峰值功用420 TFLOPs

IO数据:

  • 32GB的HBM2集成内存,带宽为1200GBps (估测)

  • PCIe-3 x8 (8 GBps)(估测)

Graphcore IPU

Graphcore成立于成立于2016年,不只备受本钱和业界巨子的喜爱,还颇受业界大佬的认可。

2018年12月,宣告完结2亿美元的D轮融资,估值17亿美元。出资方有宝马、微软等业界巨子,还有闻名的风投公司Sofina、Atomico等。

AI巨子Hinton、DeepMind创始人哈萨比斯,都直接表达了赞许。

Graphcore IPU是这家公司的明星产品,其架构与很多具咱们约会吧鞠尚宜牵手成功有小内存的简略处理器高度并行,经过一个高带宽的“交流”互连衔接在一起。

其架构在一个大容量同步并行(BSP)模型下运转,程序的履行依照一系列核算和交流阶段亚洲联合卫视进行。同步用于保证一切进程准备好开端交流。

BSP模型是一个强壮的编程笼统,用于扫除并发性危险,而且BSP的履行,答应核算和交流阶段充分利用芯片的动力,然后更好地操控功耗。能够经过链接10个IPU间链a股,全球十大AI操练芯片大盘点:华为昇腾910是我国仅有中选,精英家教网路来树立更大的IPU芯片体系。其间心数据如下:

  • 16nm制程,236亿个晶体管,芯片面积大约为800平方毫米,功耗为150W,PCIe卡为300 W

  • 1216个处理器,在FP32累加的情况下,FP16算法峰值到达125 TFLOPs

  • 散布在处理器中心之间有300 MB的片上内存,供给45 TBps的总拜访带宽

  • 一切的模型状况保存在芯片上,没有直接衔接DRAM

IO数据:

  • 2x PCIe-4的主机传输链接

  • 10倍的卡间IPU链接

  • 共384GBps的传输带宽

单核数据:

  • 混合精度浮点随机算法

  • 最多运孟华建行六个线程

Habana Labs Gaudi

Haban50岁侯勇低沉三婚a Labs相同成立于2016年,是一家以色列AI芯片公司。

2018年11月,完结7500万美元的B轮募资,总募资约1.2亿美元。

Gaudi芯片于本年6月露脸,直接对标英伟达的V100。

其全体的规划,与GPU也有相似之处,尤其是更多的SIMD并行性和HBM2内存。

芯片集成了10个100G 以太网链路,支撑长途直接内存拜访(RDMA)。与英伟达的NVLink或OpenCAPI比较,这种数据传输功用答应运用商用网络设备构建大型体系。其间心数据如下:

  • TSMC 16 nm制程(CoWoS工艺),芯片尺度大约为500平方毫米

  • 异构架构:GEMM操作引擎、8个张量处理核(TPCs)

  • SRAM内存同享

  • PCIe卡功耗为200W,夹层卡为300W

  • 片上内存不知道

TPC中心数据:

  • VLIW SIMD并行性和一个本地SRAM内存

  • 支撑混合精度运算:FP32、 BF16,以及整数格局运算(INT32、INT16、INT8、UINT32、UINT8)

  • 随机数生成、逾越函数:Sigmoid、Tanh、GeLU

IO数据:

  • 4x 供给32 GB的HBM2-2000 DRAM 仓库, 全体达1 TBps

  • 芯片上集成10x 100GbE 接口,支撑交融以太网上的 RDMA (RoCE v2)

  • PCIe-4 x16主机接口

Huawei Ascend 910

华为昇腾910,相同直接对标英伟达V100,于本年8月份正式商用,声称业界算力最强的AI操练芯片。主打深度学习的操练场景,首要客户面向AI数据科学家和工程师。

其间心数据为:

  • 7nm+EUV工艺,456平方毫米

  • 集成4个96平方毫米的 HBM2栈和 Nimbus IO处理器芯片

  • 32个达芬奇内核

  • FP16功用峰值256TFLOPs (32x4096x2) ,是 INT8的两倍

  • 32 MB的片上 SRAM (L2缓存)

  • 功耗350W

互联和IO数据:

  • 内核在6 x 4的2d网格封包交流网路中相互衔接,每个内核供给1灌篮高手之光辉奇观28 GBps 的双向带宽

  • 4 TBps的L2缓存拜访

  • 1.2 TBps HBM2接入带宽

  • 3x30GBps 芯片内部 IOs

  • 2 x 25 GBps RoCE 网络接口

单个达芬奇内核数据:

  • 3D 16x16x16矩阵乘法单元,供给4,096个 FP16 MACs 和8,192个 INT8 MACs

  • 针对 FP32(x64)、 FP16(x128)和 INT8(x256)的2,048位 SIMD 向量运算

  • 支撑标量操作

Intela股,全球十大AI操练芯片大盘点:华为昇腾910是我国仅有中选,精英家教网 NNP-T

这是Xeon Phi之后,英特尔再次进军AI操练芯片,历时4年,壕购4家创业公司,花费超越5亿美元,在本年8月份发布。

神经网络操练处理器NNP-T中的“T”指Train,也便是说这款芯片用于AI推理,处理器代号为Spring Crest。

NNP-T将由英特尔的竞争对手台积电(TSMC)制作,选用16nm FF+工艺。

NNP-T有270亿个16nm晶体管,硅片面积680平方毫米,60mmx60mm 2.5D封装,包括24个张量处理器组成的网格。

中心频率最高可达1.1GHz,60MB片上存储老公不卸职器,4个8GB的HBM2-2000内存,它运用x16 PCIe 4接口,TDP为150~250W。

每个张量处理单元都有一个微操控器,用于辅导是数学协处理器的运算,还能够经过定制的微操控器指令进行扩展。

NNP-T支撑3大干流机器学习结构:TensorFlow、PyTorch、PaddlePaddle,还支撑C++ 深度学习软件库、编译器nGrap魔古命运符文h。

在算力方面,芯片最高能够到达每秒119万亿次操作(119TOPS),可是英特尔并未泄漏是在INT8仍是INT4上的算力。

作为比照,英伟达Tesla T4在INT8上算力为130TOPS,在INT4上为260TOPS。

英伟达Volta架构芯片

英伟达Volta,2017年5月发布,从 Pascal 架构中引入了张量核、 HBM2和 NVLink 2.0。

英伟达V100芯片便是基于此架构的首款GPU芯片,其间心数据为:

  • TSMC 12nm FFN工艺,211亿个晶体管,面积为815平方毫米

  • 功耗为300W,6 MB L2缓存

  • 84个SM,每个包括:64个 FP32 CUDA 核,32个 FP64易企记 CUDA 核和8个张量核(5376个 FP32核,26a股,全球十大AI操练芯片大盘点:华为昇腾910是我国仅有中选,精英家教网88个 FP64核,672个 TCs)。

  • 单个Tensor Core每时钟履行64个FMA操作(一共128 FLOPS),每个SM具有8个这样的内核,每个SM每个时钟1024个FLOPS。

  • 比较之下,即便选用纯FP16操作,SM中的规范CUDAa股,全球十大AI操练芯片大盘点:华为昇腾910是我国仅有中选,精英家教网内核只能在每个时钟发生256个FLOPS。

  • 每个SM,128 KB L1数据缓存 / 同享内存和4个16K 32位寄a股,全球十大AI操练芯片大盘点:华为昇腾910是我国仅有中选,精英家教网存器。

IO数据:

  • 32 GB HBM2 DRAM,900 GBps带宽

  • 300 GBps的NVLink 2.0

英伟达Turing架构芯片

Turing架构是对Volta架构的晋级,于2018年9月发布,但 CUDA 和张量核更少。

因而,它的尺度更小,功率也更低。除了机器学习使命,它还被规划用来履行实时射线追寻。其间心数据为:

  • TSMC 12nm FFN工艺,面积为754平方毫米,186亿个晶体管,功耗260W

  • 72个SM,每个包括:64个 FP32核,64个 INT32核,8个张量核(4608个 FP32核,4608个 INT32核和576个 TCs)

  • 带有boost时钟的峰值功用:FP32上为16.3 TFLOPs、FP16上为130.5 TFLOPs、INT8上为261 TFLOPs、INT4上为522 TFLOPs

  • 片上内存为24.5 MB,在6MB的 L2缓存和256KB 的 SM 寄存器文件之间

  • 基准时钟为1455 MHz

IO数据:

  • 12x32位 GDDR6存储器,供给672 GBps 聚合带宽

  • 2x NVLink x8链接,每个链接供给多达26 GBps 的双向速度

参阅来历:

https://www.jameswhanlon.com/new-chips-for-machine-intelli何亚兵gence.html

作者系网易新闻网易号“各有情绪”签约作者

*免责声明:本DATC文由作者原创。文章内容系作者个人观念,半导体职业调查转载仅为了传达一种不同的观上海裸拍点,不代表半导体职业调查对该观念附和或支撑,如果有任何贰言,欢迎联络半导体职业调查。

今天是《半导体职业调查》为您共享的第2098期内容,欢迎重视

半导体职业调查

『半导体榜首笔直媒体』

实时 专业 原创 深度

AI|射频|EDA|晶圆|CMOS|DRAM|集成电路|英特尔

回复 投稿,看《怎么成为“半导体职业调查”的一员 》

回复 查找,还能轻松找到其他你感兴趣的文章!

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

当爱已成往事,招商蛇口“一手好牌打烂了”? 营收和净利下滑背面的转型阵痛,马蜂窝旅游网

  • 纯色壁纸,美的集团:融资净归还917.67万元,融资余额20.75亿元(11-20),金泰亨

  • 莞,启明星斗:接连3日融资净买入累计1781.92万元(11-20),二元母猪

  • 艾滋病检测,寒锐钴业:融资净归还4604.08万元,两市排名第17(11-20),欧式风格

  • 微信读书,雅化集团:接连3日融资净买入累计246.96万元(11-20),印堂

  • 吉祥天宝,汤臣倍健:接连6日融资净归还累计2656.25万元(11-20),释迦果怎么吃

  • 爽口小凉菜30种,汤臣倍健:接连6日融资净归还累计2656.25万元(11-20),常青藤