2015左右,全球开启了AI芯片的创业热潮。AI的这一次浪潮不仅吸引了众多顶级芯片人才选择创业,也让多家科技巨头进入了芯片行业。
不过,AI技术仍在快速发展,AI芯片的评价体系也还在完善,AI芯片领域也还没有公认的领导者。
此时一个很关键的问题是:如何衡量一款AI芯片的好坏?借着寒武纪科技回复上海证券交易所的问询函(以下简称问询函)报告,去找到如何从多个角度多层次全面衡量一款AI芯片竞争力的答案。
当然,这个答案当中也包含着寒武纪科技的许多关键信息以及它是如何与NVIDIA和华为海思较劲。
先发优势
在问询函回复报告中,寒武纪表示与华为海思相比,公司的竞争优势体现在:
公司专注于人工智能芯片 进入该领域的时间更早 ,具备先发优势。芯片架构针对人工智能应用及各类算法进行了优化,积累了一批核心技术与关键 专利 ,技术创新能力得到业界广泛认可。
在新技术的研究中,先发的优势在于,当业界对新技术的关注度还不是很高的时候就开始研究,虽然面临的挑战更大,但可以更早把“坑”踩了,更早积累更多的经验,当产业对新技术的关注度大增的时候,可以将新技术更快地产业化。
但技术的实现有很多种方式,先发优势并不一定就是最终的技术优势,技术的选择也非常关键。
架构选择
在与NVIDIA等老牌芯片巨头的竞争中,寒武纪在问询函回复函中表示其优势在于:
在研发人工智能芯片时,NVIDIA更多基于公司原有的技术储备和设计理念去适配人工智能的应用和算法,但是GPU、CPU本身并非专门为人工智能相关运算进行开发的芯片产品。而公司的芯片架构针对人工智能应用及各类算法进行了优化,有效提升了产品的性能功耗比和性能价格比。
目前,AI芯片的定义还没有一个严格和公认的标准。比较宽泛的看法是,面向人工智能应用的芯片都可以称为AI 芯片。因此,CPU、GPU、DSP、FPGA、ASIC都属于AI芯片的范畴。
这里需要单独介绍的是专为AI而设计的芯片。这类芯片经常会统称为AI专用芯片,要进一步细分的话还可以分为通用型和专用型。两者的差别在于,通用型是通过对各类智能应用和算法的计算和访存特点进行抽取和抽象,定义出一套适用于智能算法且相对灵活的指令级和处理器架构,广泛支持多样化AI算法和应用。当然,通用型AI芯片是专为AI算法设计,其通用性也不能与CPU和GPU进行比较。
专用型AI芯片(ASIC)则是针对特定的、具体地、相对单一的AI应用专门设计的芯片。
关于CPU、GPU、FPGA、DSP、ASIC的特点以及进行AI计算时的优劣势,可以参考问询函中的表格。
市场定位
AI芯片的架构各有特色,不同架构的芯片既可以应用于对性能要求很高的云端训练和推理市场,也可以应用于对功耗和成本更敏感的边缘和终端市场,因此在对比AI芯片的时候,首先要明确是否是同级别竞品以及市场定位是否相似。
寒武纪在选取同类竞争对手时候的标准有两个:
1、面向终端、云端、边缘端等智能计算市场有一种或多种芯片产品发布上市的芯片公司;
2、相关芯片产品有显著销售规模且公开披露该类产品的业务、财务资料相对较多。
基于上述原则,在智能计算市场中,行业内主要企业的具体情况如下所示:
寒武纪科技得出的结论是,综合来看,公司在业务与技术部分介绍时综合考虑了主要产品或主营业务相似度、行业知名度及行业地位、产品销售情况、信息披露透明度等因素,选取NVIDIA、英特尔、AMD、ARM、华为海思等五家企业作为同行业可比公司。
不过,AMD虽然同时拥有高性能CPU和GPU产品,但并未针对AI算法做特别优化,AMD也未在对外的宣传中提及其AI性能,所以在做AI芯片产品的对比时,AMD经常不会放在对比列表中。
选定具备可比性的同类竞品之后,接下来需要对比的就是产品的技术,包括直接影响芯片最终性能的硬件技术和软件技术。
芯片关键技术指标
在问询函回复中,寒武纪用NVIDIA和华为海思的产品进行了详细的比较,在芯片的物理技术层面从底层的处理器微架构、指令集、SoC芯片设计、芯片功能验证到先进工艺物理设计、芯片封装设计与量产测试、硬件系统设计选取衡量标准,进行了详细对比。
软件层面从编程框架适配与优化、编程语言、编译器、高性能数学库、虚拟化软件、核心驱动、云边端一体化开发环境7个方面选取衡量标准进行一一对比。
7个硬件关键技术对比:
7个基础系统软件技术对比:
软硬件的关键技术的特性以及软硬件融合的程度直接决定了AI芯片的单核、多核性能以及对不同数据精度和算法支持的表现。也是影响业界评判一款芯片PPA(Power、Performance、Area)的关键。根据AI芯片发展的应用范畴,在性能功耗比、制造工艺、软件成熟度以及未来发展趋势上,AI芯片也分主流技术水平以及未来技术发展趋势。
注1:性能功耗比按理论峰值性能和芯片整体功耗进行估计。
注2: INT2/4/8/16 分别代表进行 2 位、 4 位、 8 位、 16 位定点运算, FP16/32 分别代表进行16 位、 32 位浮点运算, BF 16 代表进行 16 位脑浮点运算。
注3:表中所述终端芯片都指具备专门化、本地化人工智能处理能力的 SoC 芯片。
注4:上表中没有针对专用型智能芯片(ASIC)进行比较,因该类芯片功能相对单一,通常无须使用 Fin Fet 等先进制造工艺,与通用型智能芯片的行业特点显著不同,且不是公司主营业务所关注的重点。
注5:训练和推理的性能功耗比均以理论峰值性能计算。
资金实力与人才实力
无论是传统芯片还是AI芯片,能够持续投入研发进行产品迭代才是保持芯片竞争力的关键。特别是,芯片行业是一个长周期,高投入的行业。因此,资金实力与人才也是影响AI芯片竞争力的关键。
相比NVIDIA和华为海思,寒武纪有着显著的资金实力差距,这也是寒武纪要在科创板上市的重要原因。
根据NVIDIA 2020财年财务报告,截至2020财年末,NVIDIA的现金及现金等价物为108.96亿美元,2020财年NVIDIA的研发费用为28.29亿美元。华为海思未上市,据公开报道2019年研发投入约为24.39亿美元。
除了资金实力与巨头相差悬殊,人才方面也是寒武纪努力在加强的,所以寒武纪的人员支出在持续增加。寒武纪员工人数从2017年末的80人增长到2019年末的868人。2017年2019年,公司支付给职工以及为职工支付的现金分别为1,512.7万元、9,300.64万元和29,818.82 万元,增长速度较快。
截至2019年末,寒武纪研发人员人数达到680人,硕士及以上学历人员546人。
单位:人,万元
市场地位与销售网络
产品、技术、人才之后,AI芯片的市场前景,AI芯片公司的市场地位与销售网络,很大程度影响着其芯片产品能否落地以及获得市场的认可。
市场方面,根据IDC 报告显示,云端推理和训练所产生的云端智能芯片市场需求,预计将从 2017 年的 26 亿美元增长到 2022 年的 136 亿美元,年均复合增长率 39.22% 。
数据来源:IDC
在一个具备前景的市场里,已有的市场地位和销售网络的影响力非常关键,不过这是初创公司需要从零开始构建的,难度巨大。
NVIDIA2020财年营业收入为109.18亿美元,华为海思2018 年营业收入为75.73亿美元(根据DIGITIMES 报道),均远远超过寒武纪的销售规模。就人工智能芯片产品来看,NVIDIA2020财年数据中心业务销售收入超过30亿美元,在全球市场份额中占有绝对优势地位。
华为海思云端和边缘智能芯片产品推出时间不长,2019年该等业务总体销售规模推测可能与寒武纪销售规模相差不大,但在国内的终端智能SoC芯片领域具有显著的优势 。
销售网络方面,NVIDIA、华为海思均有成熟完善的销售网络,客户对产品的认知程度、市场知名度等方面均优于公司。
因此无论是在寒武纪的招股说明书(申报稿)还是上市问询函回复中,寒武纪失去大客户华为海思的订单以及是否对中科曙光有较强的依赖,还有2019年从珠海市横琴新区管理委员会商务局、西安沣东仪享科技服务有限公司获得的收入大幅提升都是关注的焦点。
寒武纪回复称,其与华为海思的4个技术许可合同有3个已经履行完毕,还有一个正在履行。另外,对中科曙光的订单不存在依赖,从珠海市横琴新区管理委员会商务局、西安沣东仪享科技服务有限公司获得的订单也合理。
产品定价策略
最后,还有非常关键的定价。寒武纪称,其加速卡产品的定价差异主要由公司向客户交付的硬件产品所配套的系统软件复杂度、公司向客户提供的技术服务工作量、估计的同时期竞品的定价区间以及市场销售折扣等因素综合决定。
另外,寒武纪云端智能芯片及加速卡产品定价、销售政策由公司自主决定,产品定价在目录价格的基础上与配套软件的复杂程度、向客户提供的技术服务工作量、估计的同时期竞品的定价区间相关,同时根据客户性质、订单数量等给予一定的销售折扣。
寒武纪也列出了与NVIDIATelsa P4和T4加速卡的差别。
单位:万元/块
注1:由于无法从公开渠道获取NVIDIA相同或类似产品的官方销售价格,NVIDIA相关产品的售价区间为基于市场信息的推测或估计。
寒武纪认为,其加速卡销售价格与同行业可比公司NVIDIA相关产品的估计售价接近,不存在重大差异 。
资料来源:各公司官网、年报及其他公开披露资料
小结
寒武纪科技科创板上市申请书(申报稿)以及上市问询函回复让寒武纪科技揭开了神秘面纱,寒武纪科技也不得不回复上交所的犀利而关键的提问,这是平时寒武纪不太可能、也是尽量会避免回答的问题。
两份总计五百多页的资料中除了包含寒武纪自身的关键信息,也有大量的基础信息以及行业信息。比如本文中从问询函回复中梳理出来的AI芯片公司及产品竞争的关键,包含技术、产品、市场、渠道、定价。
透过寒武纪的回复,我们不仅能了解寒武纪的技术实力,也能以此类推去判断一款AI芯片到底如何。