全球超级计算机最新榜单:日本「ARM机」意外夺魁,英伟达成首选

机器之能 机器之能 今天

近日,新一期全球超级计算机500强榜单面世。来自日本的超级计算机「富岳」打败了连续两年蝉联冠军的Summit,仅半成品算力就超Summit一倍多。

富岳搭载的便是ARM架构,这是首次有ARM架构的超算登上Top10,ARM IP产品事业群总裁称此为「里程碑式的事件」。


在Top500中,有333台将近2/3的比例,采用了英伟达技术,而在三年前,这一数字还只有203,不到Top500的一半。


编译 | 机器之能


近日,新一期全球超级计算机500强榜单面世,前十榜单如下:

Top500榜单始于1993年,每半年发布一次,重在考核全球超级计算机运算速度。前十榜单中,中国超算有两台,来自国家并行计算机工程与技术研究中心的神威·太湖之光和来自中国国防科技大学的天河2A,分别排在第四和第五。美国排名前十超算有3台,来自IBM公司的「顶点」Summit、 Lawrence Livermore国家实验室的Sierra以及NVIDIA的Selene。

除此之外,榜单的前10位还出现3台超算新面孔:排名第6的HPC5,由意大利能源巨头Eni出资研制;排名第7的Selene,由英伟达首次推出,搭载了AMD EPYC处理器+最新的A100GPU;排名第9的Marconi-100,部署在意大利计算中心。

从整体榜单来看,中国超算系统上榜数量依旧位居榜首,有226个,美国以114个系统数量排名第二,但美国系统总算力更加强大,总共有644 petaflop,优于中国的565 petaflop。

处理器方面,英伟达出镜率最高,TOP10的超级计算机中有6台采用了英伟达技术,英特尔其次,搭载其技术的超算有4台。

与以往相比,今年榜单最大的变化就是来自日本的富岳(Fugaku)登上了榜首,过去几年中榜首都是由中美两国超级计算机轮流担任,从2018年上半年开始,来自IBM公司的超级计算机「顶点」(summit)一直位列第一,连续两年蝉联「速度最快超算,但富岳的出现打破了这一神话。

此外,榜单显示英伟达 GPU和中国制造商也深受超算系统喜爱。中国制造商在安装数量中占主导地位,其中联想、苏贡和浪潮三家厂商在500套系统中占312套的制造份额。配备英伟达GPU或Mellanox的系统有333套,占据了榜单的三分之二,而3年前这一数字还只是203,不到整个榜单的一半。

 一  

时隔九年再登榜首,日本率先迈入E级超算领域

由日本理化研究所和富士通共同研制的富岳成为了该榜单的最大赢家,以415.5 petaflops,即每秒41.55亿亿次的速度击败了连续两年霸占榜首的summit,后者的算力为148.8petaflops,不到富岳的1/2。

                                     (富岳超级计算机/图源:神户新闻)

按照理论上的最高值,富岳的计算速度将达到每秒53亿亿次,是“顶点”的两倍以上。53亿亿次是什么概念呢?

「相当于全球70亿人每秒计算1次,还得连续计算两年以上。此次Top500的平均算力直接从去年的1.65 exaflops增长到1.65 exaflops,很大程度上要归功于富岳。

另外,富岳同时还在注重超算应用性能的基准测试HPCG和注重人工智能超算性能的基准测试Linpack「HPL-AI两项补充指标中排名第一,也是Graph500榜单的第一。

与追踪浮点运算能力的Top500榜单相比,Graph 500是利用图论模拟超算在分析数据密集型应用时的性能,强调内存宽带和延迟,侧重于大数据分析等领域的计算能力比拼。

更为恐怖的是,这个一连拿下四项冠军,算力超强的富岳还只是一个「半成品」。根据富士通和日本理化学研究所的介绍,富岳还没有彻底完成开发工作,预计2021年4月开始全面运行,最终版本的峰值浮点性能可达1000PFLOPS(百亿亿次)。

这意味着,富岳可能是首个进入E级(百亿亿次)超算领域的超级计算机。E级计算是中国、美国、日本等正在追求的HPC技术高峰。中国已经超前布局了神威E级原型机、天河三号E级原型机和曙光E级原型机,富岳的出现,代表日本在这个率先迈出了第一步。

目前中国的联想已联合全球HPC领域一些知名企业,创建「E级计算愿景委员会,致力于解决技术难题,使E级,也就是百亿亿次每秒运算能力的超级计算机推广到全球。 

日本资金实力并不算强劲,在超算竞争中长期落后于中美,一鸣惊人的富岳究竟是什么背景?

富岳并不是日本超级计算机首次夺冠,九年前同样来自日本的超级计算机「京」以8162亿次的运算速度夺得top500榜首,富岳正是京的「继承者」,在架构上多得益于之前的京超算,也同样是日本理化研究所和富士通共同研制的结果。

日本理化研究所(RIKEN)本身背景非常强大,由有「日本资本主义之父」之称的涩泽容一设立于1917年。超算系统作为「国之重器」,理化研究所对其投入了相当多的人力和资金,据Satoshi Matsuoka,富岳系统的造价高达1100亿日元,折合人民币72.7亿,比天河二号和神威·太湖之光贵了好几倍。


 二  

「ARM CPU性能先天强过x86 CPU」

与富岳夺冠同样令人关注的还有其搭载的ARM架构

富岳超级计算机采用了富士通设计的A64FX SoC,该SoC采用48颗ARM核心的配置,浮点部分是与ARM合作的SVE指令扩展,使用了512bit浮点运算单元,每个节点使用48核+4辅助核,IO及计算节点则是48核+4辅助核结构。而该超算一共搭载了158,976组这样的SoC。

这是首次有ARM架构的超算首次登上排行榜前十,并且还是登上了首位。两天前苹果恰好官宣在Mac上使用基于ARM架构的自研芯片,看来ARM很有一统IP江湖的趋势。

需要指出的是,ARM架构在超算系统中的确只占很小的一部分,Top500中只有4个采用ARM架构,其中3个用富士通设计Fujitsu A64FX处理器,另一个用Marvell的ThunderX2。虽然数量少,但这对ARM来说就已经是不小的突破

一直以来,ARM在很多人眼里虽然占据移动芯片大半壁江山,但与高性能芯片无缘,超级计算机等对算力要求高的系统还是X86的天下,但ARM在富岳上的使用无疑是一个信号,证明了ARM高性能计算的可能性,ARMIP产品事业群总裁Rene Haas甚至用「里程碑式的事件」来形容:

「看到如此规模的 ARM 架构超级电脑成型,让我们感到极为骄傲,我们感谢 RIKEN 与富士通的奉献与合作,感谢他们向世界展示了基于ARM的高性能计算的可能性。」

「驱动全世界速度最快的超级电脑,是值得我们整个生态系庆祝的里程碑,因为它在相当程度上证明 ARM平台背后的能效、性能和可扩展性,已对整个基础架构与高效能电脑(HPC)带来意义重大的影响。」

事实上,ARM很早就开始寻求将高性能计算领域扩展的机会,2016年便研发出了ARMv8-A可伸缩矢量扩展(Scalable Vector Extensions/SVE),专为高性能计算、数据中心而生,SVE作为ARMv8-A指令集的可选扩展,支持最低128-bit、最高2048-bit。同年富士通签下了ARMv8-A SVE的授权,富岳正是搭载了该SVE。

同年ARM并购了为超级计算机提供性能分析工具的Allinea Software公司。2018年,美国桑迪亚国家实验室宣布交付了基于ARM处理器的超算Astra,于11月跻身Top500列表。

2019年,ARM在高性能计算领域迈出了重要的一步——英伟达宣布CUDA支持ARM CPU,用于构建极高能效水平的的百万兆级AI超级计算机,此前英伟达也已经在游戏、自动驾驶机器人嵌入式AI计算系统级芯片中采用了ARM。此外,欧洲处理器计划、美国能源部先锋项目等众多超级计算机项目都在寻求Arm的加入。

为什么超算中心都瞄准了ARM?

英伟达Tesla营销总监Sumit Gupta曾在一次采访中表示,「ARM CPU性能先天强过x86 CPU,因此更适合用于未来的高性能计算。」

他认为,ARM架构兴起于嵌入式领域,功耗限制很流行,不足1W被认为是正常状态。性能从芯片的概念设计阶段就受到限制,迫使工程师必须在能效比上特别创新。而英特尔AMD的x86架构则从PC的角度进行考虑,机器通常接入电源,没什么严苛的功耗限制。

所以「x86系统唯一的真正优势是能够在微软Windows等系统上运行的更快,但若需在最小功耗下取得最高性能,ARM才是未来的选择,因此它也是超级计算的最佳选择。」

 三  

占比超2/3,为什么超算越来越喜欢英伟达

ARM之外,Top500榜单的另一个让人关注的点是英伟达

Top10的超级计算机中有6台采用了英伟达技术,或同时采用了两种技术,Top500中,有333台,将近2/3的比例,采用了英伟达技术,而在三年前,这一数字还只有203,不到Top500的一半。


其中由英伟达内部研究出的超级计算机Selene在Top500中排名第7,在注重能效比的Green500榜单中位居第2,比Top500中未使用GPU的超算系统平均表现高出了6.8倍。

为何用英伟达系统的超级计算机越来越多了?其GPU的恐怖算力已经无需赘述,三年前推出的V100用 300W 功率提供了 7.8TFLOPS 的推断算力,而今年刚刚发布的A100算力是前者的20倍,强大到恐怖的算力非常适用于超级计算机。

另外,新推出的第三代 Tensor Core处理速度更快、更灵活,其功能经过扩展后加入了专为AI开发的全新TF32,将AI性能提升了20倍,拥有更好的能效比,Selene的成绩就是一个鲜明的例子。卓越的能效比也是超级计算机看中英伟达的原因之一。

最后,今年4月,英特尔以69亿美元天价收购了以色列“服务器和存储器端到端连接解决方案领先供应商”Mellanox,致力于InfiniBand以太网互联产品的研发。

InfiniBand互连是一种低延迟结构,它可以大大减少计算节点相互通信所需的时间,大规模用于超级计算机和超算平台。如今,TOP500榜单上有将近四分之三(74%)的全新InfiniBand系统采用了NVIDIA Mellanox HDR 200G InfiniBand。很大程度上,收购Mellanox是其产品在Top500榜单中迅速提升的关键。

 四  

结   语

最后,这份Top500榜单,尤其是新登顶的富岳或许也反应出了一个趋势,超级计算机越来越注重应用了。

关于富岳的介绍都特别强调了其应用落地的广泛性和对实际生活的助益。富岳已安装在日本神户理研计算科学中心(R-CCS)中,旨在优先的社会和科学问题。

目前,富岳已经在实验用于COVID-19的研究,包括病毒传播的诊断、治疗和模拟,例如模拟因喷嚏、咳嗽和说话等产生的飞沫如何扩散来预测COVID-19传播轨迹。未来富岳也将用于药物研发、预防医学、模拟自然灾害、天气预报、清洁能源发展等领域。


                                         (富岳的飞沫研究/图源:NHK)

其余Top10计算机也各有其应用领域,比如submmit落地重在AI方向,允许研究人员将机器学习深度学习应用于人类健康、高能物理、材料发现以及其他技术的相关问题中。

与之相比,我国超级计算机「重研发,轻应用」,大家经常谈起超算的性能如何,能效比如何,但鲜少谈及落地在哪里。

中科院计算所研究员张云泉近日在报告中提及,我国超算的建设思路是系统性能优先发展,再拉动超算应用发展,而欧美日等国家一般根据各领域实际应用需求,针对性地研制能满足实际应用需求的超算系统,以避免对机器的浪费。

「虽然在过去二十多年里,我国超算的研制和发展取得了辉煌的成就,但为了取得TOP500世界冠军而忽视实际需求,研制远远超过实际需求的机器的做法,也越来越值得我们反思。」


中国AI公司首批上市潮来袭2020-05-25

华为飓风过境,台积电何以成为中心眼?2020-05-18

从典范走向幻灭:谷歌13亿元的智慧城市梦2020-05-10