美国对中国下一代百亿亿次超算的建议与架构猜想
原创
EETOP编译整理
EETOP
3天前
收录于话题
#处理器
59个
EETOP
专注芯片、微电子,点击上方
蓝字
关注我们
据国外技术媒体
NextPlatform
报道, 为了支持其科学、经济项目的发展,中国已经发展并建造了大约二十年的尖端超级计算机。最初,中国使用在美国开发的硬件,但随着美国对中国的技术限制,中国不得不构建自己的高性能计算(
HPC
)硬件。对于即将来临的下一代
百亿
亿次(E级)超级计算机,中国目前也走到了前列。
NextPlatform
援引中国并行
计算机工程
与技术国家研究中心(NRCPC)的一份
文件
报道说,中国的
百亿
亿次超级计算机提案之一包括扩展申威
HPC
架构以及申威多核混合
CPU
架构 。
以下是NextPlatform关于中国
百亿
亿次超算的建议以及架构猜想
超级计算趋势:更多内核
作为百亿亿次计算机时代准备工作的一部分,NRCPC对近年来通用超级计算机的发展趋势进行了研究。
该组织发现,由于
摩尔定律
和
登纳德缩放比例定律
(
Dennard
Scaling
)
的放慢,在不增加功耗的情况下提高超级计算机的性能变得异常困难,因此整个系统架构的复杂性会呈指数级增长。
基于这些发现,领先的超级计算机在2008年至2019年的性能有所提高,这主要是由于计算内核数增加了44倍。为此,NRCPC认为,与其发明全新的东西,不如扩展现有的神威超级计算机架构和神威
CPU设计
。特别是拥有数千万核的超级计算机正在考虑中。
探索神威SW26010架构
2016年推出的最新神威太湖之光超级计算机使用了40960个国产多核神威SW26010处理器,采用混合架构。该系统的Linpack性能(Rmax)为93,014.6 TFLOPS, (Rpeak)为125,436 TFLOPS。当前的百亿亿美元级提案包括扩展SW26010
CPU
和太湖之光系统的扩展,因此了解更多关于CPU架构的细节是有意义的。
SW26010
处理器是基于自主研发的
64
位
RISC
架构,具有
4
个
集群
或核心组(
CG
)和一个协议处理单元(
PPU
)。
每个集群有一个
MPE(management processing element)
,
MPE
是一个超标量乱序核,具有
256
位向量引擎、
32kb/32kb L1
指令
/
数据
缓存
、
256kb L2
缓存
。
它还集成了
64
个计算处理元素
(CPE)
,具有相同的
256
位向量引擎以及
64 KB
的快速本地数据和
16 KB
的指令存储。
CPE
被组织成一个
8x8
阵列,并使用
网状网络
相互连接。
值得注意的是,
MPE
和
CPE
通过基于目录的协议支持一致性共享,这减少了数据在核之间的移动,并支持不同核之间的细粒度交互,这对具有不规则数据共享访问权限的应用程序尤为重要。
每个CG都有其自己的
DDR
3
内存控制器
,该控制器具有自己的地址空间,该内存使用9个内存模块实现专有ECC实现,支持8
GB
内存。CG通过类似于环形
总线
的
片上网络
(
NoC
)进行互连,并且处理器本身通过系统互连(SI)
总线
连接至系统的其余部分。在神威太湖之光超级计算机中使用的
CPU
SW26010操作主频为
1.45
GHz
。NRCPC没有透露它使用哪种
工艺
技术来制造SW26010,但是自从太湖之光在2016年中期首次出现在全球500强名单中以来,可以合理地假设其
CPU
是使用
台积电
的28 nm制造
工艺
制造的。
假设太湖之光已满载且效率为
100
%,则这种处理器的性能约为
3.168 TFLOPS
(峰值),并且内存
带宽
约为
136
GB
/ s
。
SW26010本质上是一个具有260个内核的混合处理器,这些内核共享相同的微体系结构,但功能不同。由于SW26010是可利用其256个CPE内核利用线程级并行性的单芯片,因此它被认为比配备了计算加速器(例如
GPU
或
FPGA
)的
CPU
效率更高,因为它不必增加内存
负载
串行(MPE)和并行(CPE)内核之间的事务。 与此同时,基于x86的现代超级计算机使用超过四个“大”核的cpu,这增加了一定的灵活性。
NRCPC的E级超算解决方案及建议:扩展一切
从NRCPC的角度来看,可以同时扩展神威系统和神威
CPU
架构,以构建性能约为1 ExaFLOPS的超级计算机。
为了构建这样一个系统,
NRCPC
建议增强
SW26010
CPU
并增加处理器数量。
用于百亿亿次级计算机的新神威
CPU
将拥有
8
个
CG
集群,而不是
4
个。
CG
架构将保持不变
:
一个
MPE
和
64
个
CPE
。
同时,
CPE
将支持
512
位向量指令
(
大概
MPE
也会支持,但文档中没有明确说明
)
。
根据
NRCPC
的估计,这种处理器将提供超过
12 FP64 TFLOPS
。
百亿亿次超级计算机也将使每个系统的
CPU
数量增加一倍以上,达到
80000
多个。
NRCPC表示,基于下一代神威
CPU
架构的百亿亿次神威超级计算机峰值性能约为1 FP64 ExaFLOPS(百亿亿次浮点运算)、2 FP32 ExaFLOPS以及4 FP16ExaFLOPS。据该组织估计,百亿亿次神威系统的实际性能将达到700 PFLOPS左右(也就是说,它的效率将达到70%左右),因此它将比“太湖之光”快7.5倍。此外,这款超级计算机将提供约7倍高的内存
带宽
和约2倍高的网络带宽。
神威太湖之光超级计算机耗电
15371
千瓦。
相比之下,当前世界上最强大的机器
——
日本
富士通
的
富岳(
Fugaku
)
超级计算机消耗了
29,899
千瓦,大约是它的两倍。
美国的
Frontier
超算预计将在今年晚些时候成为第一个提供
1.5
ExaFLOPS
运算性能的系统,预计消耗约
3
万千瓦。
虽然
NRCPC
的研究给出了一些关于中国百亿亿级超级计算机预期性能的想法,但该文件缺少的一个东西是该系统的预期功耗。
该文承认,增强
CPU
架构将导致内部互连和
缓存
的主要重新
设计
,这意味着功耗的增加。此外,整个超级计算机将不得不重新设计,以利用额外的每CPU性能和CPU数量。NRCPC说,它将在接下来的文件中解决其他超级计算机子系统的挑战。
需要新的
工艺
技术
从工程角度来看,可以构建具有520核(8个MPE,512个CPE)的混合
CPU
。
同时,将内核数量增加一倍并增加其复杂性,而要求内部互连速度快两倍的512位向量单元将不可避免地导致晶体管数量的显著增加。
晶体管数量加倍并不是一个不可克服的挑战。最终,诸如
AMD
、
Intel
和
Nvidia
之类的公司知道如何为数据中心和超级计算机构建大型
CPU
和
GPU
。但是,所有这些公司都可以使用领先的
工艺
技术和半导体生产设施。目前尚不清楚是否倾向于让
台积电
或
三星
代工还是考虑在
中芯国际
代工,以制造其混合超级计算机
CPU
。
目前,
中芯国际
拥有两项
FinFET
制造技术:其
14纳米
节点以及用于廉价芯片的N + 1节点。假设SW26010之前使用的是
台积电
的28 nm制程技术制造
,那么将SMIC的14 nm
工艺
用于相当复杂的
CPU
很有道理。当然,
中芯国际
是否能够使用其14 nm节点(到目前为止仅用于移动
SoC
和其他相对较小的组件)是否能够大规模生产相当复杂的芯片,并以正确的频率达到正确的
良率
还有待观察。还有一点是,中芯国际在美国商务部的“实体名单”中,是否会影响到芯片代工,目前还不得而知。
预览时标签不可点
收录于话题
#
处理器
59
个
下一篇
不甘示弱!英特尔拿出数据,指自家处理器比M1好太多
阅读
文章已于
2021/02/19
修改
分享
收藏
赞
在看
已同步到看一看
写下你的想法
前往“发现”-“看一看”浏览“朋友在看”
前往看一看
看一看入口已关闭
在“设置”-“通用”-“发现页管理”打开“看一看”入口
我知道了
已发送
取消
发送到看一看
发送
美国对中国下一代百亿亿次超算的建议与架构猜想
最多200字,当前共
字
发送中