国内首个二次迭代AI训练芯片,燧原科技拿下四个国内第一

从2018年3月成立到2021年7月,燧原科技用了三年多时间完成了一家AI初创公司的蜕变——从Pre-A到C轮共超30亿元的融资以及AI训练和推理芯片产品的完整布局。

2021年7月7日,燧原科技发布 “邃思2.0”芯片,基于邃思2.0的“云燧T20”训练加速卡和“云燧T21”训练OAM模组,全面升级的“驭算TopsRider”软件平台以及全新的“云燧集群CloudBlazer Matrix”,在算力规格、存储容量和带宽等多方面实现了大幅提升和突破。

图片
燧原科技CEO赵立东(左)与燧原科技COO张亚林(右)共同发布“云燧T20”训练加速卡和“邃思2.0”芯片

燧原科技是国内第一家同时拥有高性能云端训练和云端推理产品的初创企业。作为国产AI芯片企业,我们可以看到它的星星之火早已开始燎原。

AI芯片产业混战


在这十年中,市场逐渐成熟。越来越多的企业开始使用人工智能来分析他们收集的海量数据,而政府则将资金投入深度学习研究以保持领先地位。德勤分析师Costi Perricos表示,人工智能将成为各国竞争的“下一个焦点”。

AI领域和传统的计算芯片不同,CPUGPU已经有较长的历史,很多技术都需要授权,形成了专利墙。从芯片、软件到客户,已经形成了完整且成熟的产业生态。

因此,即使英伟达AI训练芯片领域占有绝对的主导地位,仍有源源不断的对手迎头赶上。

谷歌于2015年开始制造自己的芯片;在2016年收购Annapurna Labs后,亚马逊去年开始将Alexa的大脑转移到自己的Inferentia芯片上;百度旗下的昆仑,最近估值为20亿美元;高通拥有Cloud AI 100;IBM 正在致力于节能设计AMD收购Xilinx用于AI数据中心工作,Intel在2019年为其Xeon数据中心CPU添加了AI加速;它还收购了两家初创公司:2016年以4.08亿美元收购了 Nervana,2019年以20亿美元收购了Habana Labs

对于国产企业,一方面,市场和生态仍然存在可操作的空间。另一方面,随着5G人工智能行业的快速发展,中国AI芯片行业市场成长空间巨大,预计2023年市场规模将突破千亿元,如此庞大的市场,如何不心动?

在一众国产厂商中,燧原科技无疑是其中的佼佼者。在此次发布会中,燧原科技从软硬件两方面入手,打造自己的AI芯片版图

拿下四个国内第一


数据是最好的证明。在发布会上,我们看到,邃思2.0是中国第一个支持TF32数据精度的芯片、国内最大的AI计算单芯片、中国第一个支持世界最先进内存的产品、对超大规模算法模型的超强支持能力……所谓“技多不压身”。值得注意的是,邃思2.0也是2021世界人工智能大会的十大“镇馆之宝”之一,可见其宝贵价值。


图片
燧原科技第二代通用人工智能训练芯片“邃思2.0”

1.国内第一个发布第二代人工智能训练产品组合的公司

“邃思2.0”芯片、基于邃思2.0的“云燧T20”训练加速卡,“云燧T21”训练OAM模组,以及全面升级的“驭算TopsRider”软件平台以及全新的“云燧集群CloudBlazer Matrix”的发布,让燧原科技成为了国内首家发布第二代人工智能训练产品组合的公司。

图片
燧原科技第二代通用人工智能训练加速卡“云燧T20”

2.国内第一个支持TF32数据精度的芯片

TensorFloat-32(TF32)是NVIDIA A100中用于处理矩阵数学(即张量运算)的新数值格式,矩阵数学在AI及部分HPC运算中很常用。直白地说,NVIDIA A100 GPUAI训练与HPC速度提升20倍很大程度上就是依靠TF32。

随着AI网络和数据集持续扩张,算力需求与日俱增,研究人员尝试用较低精度的数学计算来提升性能,但此前这样做需要调整一些代码,而TF32既做到性能提升,同时又无需更改任务代码。

FP32是当前深度学习训练和推理中最常用的格式,而TF32的工作方式与FP32相似,TF32 Tensor Core根据FP32数据的输入转换成TF32格式后进行运算,最后输出FP32格式的结果。

燧原科技创始人兼COO张亚林指出,目前业界的判断是,TF32几乎可以应用在大部分AI场景中,包括机器视觉、语音、自然元翻译、化学等,都具有应用TF32的潜力。从行业趋势来看,TF32很可能会成为用于训练业务的最重要的数据精度类型之一。

燧原科技率先采用TF32数据精度,无疑是大胆的决策,背后也显示出其魄力。这也意味着燧原有明确的技术规划路线,强大的研发实力和精准的工程交付能力。

3.国内最大的AI计算单芯片

邃思2.0也是目前国内最大的AI计算单芯片。大尺寸的芯片带来了工程实现难度的指数级增长,挑战工程技术的极限,但也带了巨大的收益——即大幅度提高了单芯片的综合能力,以及数据中心的算力密度。

前者带来的显著客户价值是大幅提高了算法模型性能,从而有效缩短模型收敛时间,帮助客户更快上线、部署与运营业务,有效降低了客户的综合成本。后者则能够有效降低数据中心的PUE指标,也就意味着能够建造绿色智能数据中心,这也充分符合国家关于碳中和、碳达峰的政策导向,是IDC的未来发展趋势。

4.国内第一个支持世界最先进内存HBM2E的产品

邃思2.0更是中国第一个支持世界最先进内存HBM2E的产品。据悉,AI领域的算法模型训练对内存的存储容量和存储带宽是强需求,是解决存储墙的核心方案之一。越来越多用于认知智能的超大规模模型的推出加剧了对大内存的需求,例如6月初北京智源人工智能研究院新推出全球最大的预训练模型:悟道2.0,参数高达1.75万亿。而HBM2E是目前用于解决该需求的最佳存储技术方案。

基于这颗芯片,燧原科技还推出了其二代人工智能训练产品“云燧T20”。伴随着人工智能应用场景的多样化和深度化,特别是基于自然语言处理技术的认知智能的发展,新颖的算法模型越来越大,计算超大模型要求超大算力来支撑。集群的规模以及集群能够提供的有效算力,是支持多样化模型训练的基础。基于第2代云燧训练加速卡强大的互联能力,能够以更高的集群性能提供更快的数据处理能力,也能够有效降低基础设施系统的整体复杂度和成本,从而为客户提升价值。

从创新生态到绿色智能数据中心


众所周知,英伟达在硬件上的实力处于世界领先水平。但实际上,英伟达的软件和合作伙伴生态系统是竞争对手更加难以匹敌的部分。

此次发布会上,燧原科技隆重推出了燧原异构计算生态——“燎原”计划,这既是一个品牌,也是一个计划,这个计划有三大特征,第一,一定要原始创新,自己从头打造基础;第二,一定要建立标准化生态,第三,以开放的姿态共建生态。

软件方面,早在2019年首次发布会时,燧原科技就推出了自主研发的计算及编程平台“驭算”。资料显示,驭算主要包含了分布式调度、软件开发包(SDK)和设备驱动层,并提供Benchmarks等,能够降低开发门槛。同时还兼容TensorFlow、Pytorch、MXNet和ONNX等主流框架,支持C/C++算子编程、支持基于LLVM的编程工具链、支持基于GDB算子调试器和性能分析器,提供算子、指令集优化和开放硬件加速能力。

此次同步升级的驭算2.0,得益于完善的软件架构设计,绝大多数模型可无缝从传统GPU开发平台迁移到燧原平台上来,几乎不用修改代码,对开发者非常友好。同时燧原也提供模型迁移服务,帮助客户解决迁移过程中遇到的技术以及运维上的困难,最大程度降低迁移成本,成为燧原科技构建原始创新软件生态的基石。完全自研的软硬件架构,助力燧原科技在知识产权和产品升级迭代上可以自主掌控方向和节奏。

图片
燧原科技第二代“驭算TopsRider”软件平台

不仅如此,燧原科技正在与杭州之江实验室、上海交通大学、西安交通大学等一系列产学研伙伴合作,这些合作都依附于燧原科技已有产品进行合作,通过现有的产品不断去打磨生态。

图片
燧原科技之江实验室签订联合创新研究中心仪式

值得一提的是,去年3月国家提出了加快新型基础设施建设的国家战略,人工智能和数据中心都是重点发展方向,为公司带来了更大的市场机遇。基于云燧T20和T21训练产品、GCU-LARE互联技术和新一代驭算,燧原科技打造了标准化的集群产品CloudBlazer Matrix,有效降低人工智能超算集群的整体复杂度和成本。同时通过与合作伙伴的联合开发,一起构建超大规模的液冷智能数据中心,以响应国家“低碳算力”和“绿色一体化智能计算”的战略方向。

这也意味着燧原科技已经开始打造从国家层面出发的、低碳的绿色智能数据中心。

快点,再快点


AI芯片领域,现在成为国内的热门赛道,百花齐放。燧原的突破之道,是在产品上做到极致。以更快的迭代速度、更快的客户反馈来加速产品迭代,才能在市场中建立自己的竞争优势。

依托于实力强大的研发团队,在成立18个月后,燧原科技就推出了其首款云端训练产品 “云燧T10”及软件全栈“驭算”,又在2020年9月宣布“云燧T10”落地商用,并在12月宣布首款云端推理产品正式量产发布。

从0到1,在两年半时间内完成了大芯片、软件全栈、系统集群从产品定义、设计验证、流片到产品的最终商业落地,为国产AI芯片的发展提供一条全新的道路。

与成熟企业相比,一家初创企业能够拿出一代产品已属不易,更难得的是,这款产品能够落地,得到市场的认可,这是更为艰难的步骤。张亚林指出,2020年燧原科技公布第一个客户落地开始,就一直在坚持三条业务线:泛互联网、传统行业和新基建,在这三个业务线上不断发力,构筑整个业务群,同时也得到了非常多的客户反馈,这在反馈侧面印证了客户对燧原科技的重视度,也助力催生了第二代产品。所以,第二代产品是在看到一些客户的需求后推出的。燧原整个公司推出的产品与节奏,第一代和第二代间距是一年半,快于行业内的标杆速度。

细细考究,抛开上技术参数,燧原科技身上有哪些深入骨髓的烙印?

强大实力背后的三驾马车


第一架马车,当然是燧原科技成熟的产品战略规划。从创业之初,燧原科技就在规划落实三个关键点,包括文化统一,即团队的高度协同和客户为先的根本;行为模式统一,即优秀的团队管理制度;正循环,即产品和资本投入的正循环。

第二架马车,是雄厚的资金支持。

诚如前文所言,燧原科技诞生于2018年,从那一年开始,火热的AI市场开始呈现下滑趋势,2019年、2020年AI产业开始进入融资急速降温期。中国人工智能领域 2018年的融资金额高达667亿元,2019年、2020年融资金额分别降至272亿元和243亿元。

在缺乏商业模式和落地场景下,投资人认为很多AI故事已经讲不动了。但燧原科技似乎逃离了AI变冷的魔咒,相反,投资人在燧原科技展现了极大的热情。

2018年,燧原科技刚刚成立不久就宣布了Pre-A轮融资3.4亿元人民币,腾讯领投,震惊业界。

2019年6月,燧原科技在整个大环境感受到资本寒意的时候,又宣布获得红点中国领投的新一轮融资3亿。

2020年5月,完成7亿人民币B轮融资,领投方为半导体产业基金武岳峰资本,老股东腾讯继续跟投。

2021年1月,再度完成18亿人民币C轮融资,领投方为中信产业基金、中金资本旗下基金、春华资本。

本着“做大芯片,拼硬科技”的初心,燧原科技志在占领高端云端训练芯片领域,对标国际芯片巨头。燧原科技CEO赵立东曾在采访中指出:“我们从一开始就选择了高举高打的路线:瞄准数据中心,做AI训练加速芯片。因为那是蓝海市场,拼的是技术实力,不是价格。同时,这个市场被巨头独家垄断,中国客户迫切希望看到可替代的供应商和产品。对燧原科技来讲,技术门槛高是挑战,更是机会。”

第三驾马车,是人才团队与技术积累。一家初创企业在短短三年内实现迭代,必然有多方面的因素,身处智力密集型产业,能够站立在国内AI芯片第一阶梯,唯有靠产品说话。

公司创始人兼CEO赵立东曾在硅谷工作超过20年,担任过AMD计算事业部高级总监和产品工程部高级总监等职位,负责CPU/APU产品规划,市场分析及拓展和CPU/GPU/APU及多个相关核心IP的研发;2014到2017年间,赵立东历任紫光通信科技集团有限公司副总裁、紫光集团旗下锐迪科微电子公司总裁和紫光集团有限公司副总裁等职位。

图片
燧原科技创始人兼CEO 赵立东

公司的另一位创始人兼COO张亚林先生则于2008年加入AMD,历任资深芯片经理、技术总监。张亚林曾经作为全球芯片研发主要负责人之一,在AMD上海研发中心成功领导开发并量产了多颗个世界级芯片,拥有丰富的工程和产品化实战经验。其中包括领导全球团队为微软(Microsoft)定制开发了XBOX-ONE系列主芯片;领导开发了全球目前最大的融合芯片APU,并一次量产成功,该款芯片成功用于小霸王最新发布的Z+游戏电脑。他还曾参与创立、发展和管理了AMD上海研发中心融合芯片部门、AMD北京研发中心以及AMD中国多媒体IP部门。

图片
燧原科技创始人兼COO 张亚林

在这两个人带领下,公司打造了一支平均拥有15年以上的高端芯片及相关软件生态系统的开发及量产经验的核心研发团队,拥有丰富的工程和产品化实战经历,成功开发并量产过多颗大型芯片的研发团队,走上了“征战”之路。

燧原科技始终坚持自主研发与创新,已获得超过52项专授权利,其中包括45项发明专利,专利内容涵盖了芯片的运算单元、核心功能模块、到封装以及系统集群,还包括软件的架构和优化。此外,燧原科技有近30项专利正在申请中,充分展现了其强大的研发和工程能力。 

说在最后


芯片是电子产品的“心脏”,是国家“工业粮食”。近年来,国家出台了各项政策支持芯片产业的发展。3月1日,工信部也提到,中国政府高度重视芯片、集成电路产业,并发布了促进集成电路产业和软件产业高质量发展的政策,全面优化完善高质量发展芯片和集成电路产业的有关环境政策。

燧原科技本着“做大芯片,拼硬科技”的初心,专注研发针对云端数据中心的深度学习高端芯片,定位于人工智能训练及推理解决方案,正在向成为国内AI芯片领军企业迈进。


今天是《半导体行业观察》为您分享的第2733内容,欢迎关注。

推荐阅读


中国封测领域的新变化

国产IGBT走上快车道

台积电三星开启“全战”模式


半导体行业观察

图片

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

晶圆集成电路设备汽车芯片|存储|MLCC英伟达|模拟芯片

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!

图片