详谈三星5nm工艺,Exynos 1080芯片,和Cortex-A78

黄烨锋 国际电子商情 昨天
三星电子系统LSI在上海举办了Exynos 1080芯片的发布会,电子工程专辑已经第一时间发布了相关的快讯。这是三星电子系统LSI首次在中国内地召开芯片产品的首发会议。这个动作应该是在很多人的意料之中的:本月早前,BusinessKorea就报道System LSI“计划在2021年向中国智能手机制造商提供Exynos芯片”,而且除了常规合作伙伴vivo之外,还包含OPPO和小米等。

所以在中国召开Exynos新品发布会,显然是System LSI要铺开中国市场的开端——预计明年我们会看到更多国产手机搭载三星Exynos芯片。

Exynos 1080并不在旗舰定位,它理应属于Exynos 980的继任者,而非Exynos 990。其同档竞品应该是麒麟820、骁龙765G

值得一提的是,三星此前宣布不再采用自研架构的CPU,实则与Exynos 1080/980这个定位及以下的产品也是无关的,比如Exynos 980采用的是Cortex-A77大核心,而Exynos 990的大核心才是三星自研的M5。猜测这一代更高定位的Exynos 1090会加入Cortex-X1大核心。

本文分成三部分:(1)Exynos 1080本身;(2)三星5nm工艺;(3)Cortex-A78核心。读者可以按照兴趣选择性阅读。


配置综述,Exynos 1080的一些亮点


这场发布会上,三星透露有关Exynos 1080芯片的技术细节比较少,但我仍然期望借着这篇文章来简单谈谈其中的一些亮点。主要包括了三星的5nm工艺,以及这颗芯片的CPU部分率先采用的Cortex-A78大核心(GPU部分的Mali-G78此前已经撰文详述过,本文不再单独讨论)。

Exynos 1080主要配置罗列如下:

CPU:1x Cortex-A78 2.8GHz,3x Cortex-A78 2.6GHz,4x Cortex-A55 2.0GHz
GPU:Mali-G78 MP10
▪ 内存支持:四通道 LPDDR4 & 5;
▪ ISP:单摄2亿像素支持,双摄3200万+3200万像素支持,最多可接收6个传感器信号(6摄),同时可接收3路输入信号;
NPU:与DSP联合算力5.7TOPS,另可与ISP协作,实现AISP“AI图像处理”;
▪Modem:支持5G Sub-6GHz 5.1Gbps下行 1.28Gbps上行;毫米波 3.67Gbps下行 3.67Gbps上行;支持2G-4G网络,4G LTE Cat.18 6CA 1.2Gbps下行 2CA 200Mbps上行;
▪其他无线连接:蓝牙5.2,WiFi 6;
▪其他:显示支持WQHD+ 90Hz,FHD+ 144Hz;HDR+高动态范围视频技术,原生10bit 4K 60fps视频编码与解码;游戏加入了Amigo电源管理系统;
▪ 制造工艺:三星5nm(5LPE


这里面还是有不少内容是值得拿出来好好说一说的。因为篇幅关系,本文仅略微带过。其中CPU终于采用了Cortex-A78,这是Arm今年年中对外公开的CPU IP。前不久的华为麒麟9000就没有赶上Cortex-A78的时髦。

Exynos 1080的CPU整体是1+3+4的核心搭配,其中有个频率最高的Cortex-A78核心,频率为2.8GHz。这个频率在如今的旗舰市场上是不算高的。骁龙865+与麒麟9000的Cortex-A77大核都已经把频率提到了3.0GHz以上。

但2.8GHz还是比Exynos 980的2.2GHz要高不少的。这一点其实也能看出Exynos 1080的定位是偏次旗舰的。三星半导体中国研究所所长潘学宝表示,与上代产品相比,CPU单核性能提升50%,多核性能提升100%(基于Geekbench 5的数据)。

这里的所谓“对比上代”是指Exynos 980。不过50%和100%的提升仍然是比较恐怖的数字,略有旗舰水准。尤其大核的Cortex-A78,应该是贡献良多的,单就三星宣称的Geekbench 5成绩来说,应该已经超过了骁龙865的水平。


Exynos 1080的GPU部分是Arm最新的Mali-G78,麒麟9000采用的也是这个GPU。但在规模上前者就远远小于后者了:麒麟9000的GPU是采用Mali-G78最高支持的24个核心,而Exynos 1080为10核心。

三星没有公布GPU的频率,只是提到“计算核心从原来5个,提升到10个,存储通道由双通道变为四通道”,这显然说的就是对比Exynos 980了。与此同时,“GPU性能相比上代,提升130%,是上代的2.3倍之多”(基于Manhattan 3.0测试数据)。

此前Exynos 980的GPU大约可以应付《和平精英》这类游戏的中低特效,虽说Exynos 1080的GPU规模仅有麒麟9000的一半不到,不过这次至少相比前代应该会有游戏方面较大程度的提升,而且效率可能会提升不少——当然主要还得看具体的实施方案。

有关Mali-G78,我在麒麟9000的剖析文章中已经有比较详细的介绍。Mali-G78是Valhall架构的第二代核心IP,G78实则相比G77是个小改款。不过在性能和效率上,Mali G76/G77已经与同代的高通Adreno比较接近。上代Exynos 980采用的是Mali-G76MP5的方案,G76仍然是Bifrost架构,所以在架构翻新、核心数翻倍、工艺改进的基础上,性能提升130%是在意料之中的。


在图形计算部分,比较值得一提的是潘学宝提到的Amigo电源管理方案。这是主要面向游戏的一个方案。潘学宝表示,这种节电解决方案能够实时监控各流程电源消耗情况,优化游戏过程中的总功耗,令电源效率提高10%。“在游戏运行时,动态监测功耗,并作出预测,实时给出最佳电源分配方案,保证游戏性能的同时,节约整体功耗。”

“拿《王者荣耀》做测试,Amigo能够在保证性能不变的前提下,总体耗电下降10%以上。”潘学宝说。除此之外,他并未再透露更多有关这项技术的细节。不知道这是个硬件方案,还是个软件方案。

听起来和华为GPU Turbo以及更为传统的reactive DVFS驱动有些类似(一个是GPU驱动之间有个监听层用于监听渲染调用;另一个则是通过硬件计数来监听GPU利用率,再做调整;前者有着更细的调节粒度),而且GPU Turbo实际的功耗红利也在10%左右。


以上硬件参数中,另外值得一提的是AISP,即“基于AI的图像处理”,也就是NPU+ISP的融合。这一点,麒麟9000的媒体沟通会上也提过。我在此前的文章中也提到了,NPU+ISP是拍照与拍视频后处理的一个趋势。苹果谷歌在更早的时间就已经在做了,谷歌也时常介绍Pixel手机怎样利用机器学习,做自动白平衡、防抖等的加强——虽然谷歌是通过外置一颗PVC芯片的方案。

所以潘学宝也提到通过NPU,做拍摄物体与风景的检测,优化白平衡与曝光——这在当代算是比较常规的思路。不过三星并未透露Exynos 1080所用NPU的型号和性能。三星有将NPU与DSP融合做AI计算的传统。Exynos 1080的官方页面提到,NPU+DSP,令Exynos 1080能够达到至多5.7 TOPS的性能表现[1]。作为参考Exynos 990的AI算力在15 TOPS左右。

三星的5nm工艺


这颗芯片的亮点主要在5G modem和5nm工艺上。有关5G支持部分,支持载波聚合达成5.1Gbps最高下行速率。三星对此介绍也比较简单,这还是要看终端产品的实施方案。另一方面,以Exynos 1080的定位,想必明年也会有更多便宜的5G手机上市了。

5nm工艺很有必要多谈一谈。Exynos 1080的5nm工艺具体应该是5LPE。发布会上,三星半导体System LSI市场部副总裁CY Lee提到,三星5nm EUV工艺,芯片面积减少25%,功耗效率提升20%,性能表现提升10%。这组数字其实还是比较抽象的。


三星5LPE相对于7LPP工艺来说,算是个1/4代工艺——这一点就与台积电N5很不一样(三星路线图中,7LPP、6LPP、5LPE、4LPE都属于一代内的进化,而下一代工艺应该是3GAE),或者说三星7LPP->5LPE的跃进幅度远没有台积电N7->N5那么大。其标准单元的晶体管密度提升1.3倍。

实际上,5LPE工艺晶体管的fin pitch、gate pitch、metal各层间距基本上都没什么变化。从Wikichip的数据来看,5LPE的UHD(超高密度,54PP)单元库密度在126.89 MTr/mm²(HD单元库密度91.36 MTr/mm²)[2]。

如果一定要对比的话,台积电N5工艺的超高密度库晶体管密度在171.3
MTr/mm²,相比N7的密度推进为1.84倍[3]。当然,我在《为什么说Intel10nm工艺比别家7nm更先进?(上)》一文中就提到过,晶体管密度的计量方法有差异,而且晶体管在芯片上也不是均匀分布的,以及即便是同代工艺的不同单元库的密度也不一样,所以不同厂商的晶体管密度数字实则并不应该直接比较。

5LPE实际上更像是三星7nm工艺的一个扩展。因为三星此前的工艺路线图上,7nm工艺就已经比别家的更为激进,更早在某几层采用了EUV(极紫外光)。所以5LPE所用的晶体管、SRAM也都和7LPP基本相同。而且7LPP的设计IP在5LPE上是可以复用的,迁移比较平滑。

来源[4]
晶体管各项参数没什么变化,又如何实现密度提升呢?这就叫scaling booster了。主要还是从单元(cell)来着手。

5LPE最大的提升是新的6T UHD单元库,主要特性包括SDB(single diffusion break)、36nm的M2间距,CB on RX edge等(RX是指单元的活跃区域,CB属于额外的本地互联层,在单元内横向布局,将接触层的触点连接到多晶本地互联——位于第一层金属层之下,也就是MOL互联;所以CB on RX edge也就是CB互联层用到单元活跃区域边缘);还增加了一种低漏电的1-fin device(1个p fin,1个n fin)能够提供至多20%的功耗节约。

这里的SDB,我在介绍Intel 10nm工艺的文章里也提到了,实际上就是单元之间共享单个dummy gate的方案,对于增加晶体管密度都是有价值的。三星曾在14nm工艺中用过这个结构,只不过7nm没有采用SDB,而是DDB(也就是两个dummy gate)。前面这些都属于常规晶体管缩放之外的技术,被称作scaling booster。

5LPE相比7LPP的实际提升是:对于HD高密度(7.5T)库而言,性能提升了11%(同功耗下,速度提升11%;同性能下,功耗降低约20%);而UHD超高密度(6T)库则实现了大约33%的密度提升,也就是前面提到的126.89 MTr/mm²。下面这张图是三星在Arm TechCon 2019会议上提供的:


再看下Wikichip画的这两种单元库,相比之前7nm单元之间的差异。8nm和7nm HD单元都减掉了一个fin,而且7LPP每个fin也实现了更高的驱动电流,也就能有更好的性能——减fin则能够获得面积方面的收益。5LPE的UHD单元库再减1个fin——所以整个单元高度就变小了,加上稍作加强的晶体管(包括low-k spacer、DC加强等),实现面积和功耗的小幅缩减。

来源:WikiChip[2]

当然,若考虑性能的话,HD库还是必要选择。HD库的CPP(gate pitch)仍然是60nm,和7LPP工艺一样,另外单元间用MDB(mixed diffusion break,混合间隔,即pMOS用SDB,而nMOS用DDB),性能肯定会更好。

有关Cortex-A78大核心


最后再花一点笔墨谈谈Arm的Cortex-A78处理器核心。Cortex-A78仍然是Arm v8.2指令集的一颗CPU;它也是Austin家族中的第三代产品。

Cortex-A78的微架构调整,从前到后主要着重在效率提升,包括面积效率和功耗,尤其是针对A77的部分结构和尺寸做了缩减——针对那些收益并不是很高的资源做缩减,或者说进一步找准了性能与功耗/面积的甜蜜点。

前端部分最大的变化是分支预测器:除了精度提升外,现在能够处理至多每周期2个分支——平衡了去年A77后端多出的第二个分支执行单元。即A78每个周期可并行处理2个预测,增加这部分的核心吞吐,并且更快地从分支错误预测中恢复过来。前端设计变化主要还包括可选32KB的L1I cache(指令缓存)。

核心中段到执行管线部分,绝大部分提升是针对面积缩减和能效提升的:包括更多的指令融合;发射序列设计新结构提升能效;寄存器重命名结构和寄存器堆,也特别针对效率做了优化——包括尺寸的缩减,条目密度增加,相同空间内可以容纳更多数据,减少结构的整体尺寸,但对性能无影响;re-order buffer效率,可以塞进更多指令;乱序窗口尺寸缩减;6Mops的dispatch宽度,应该是比去年增加了的。

执行部分,唯一较大的变化是整数执行模块,升级了一条更复杂的ALU管线,可处理乘法,令整数MUL宽度加倍。

核心后端和存储子系统有更多相关性能的调整。首先是新的load AGU(地址生成单元),令核心的load操作带宽增加了50%;load/store队列到L1D cache(数据缓存)的带宽翻倍,核心到L2的读取与写入带宽翻倍;可选更小配置的L1D(32KB);L2 TLB缩减至1024 pages——仍然足够应对4MB L3 cache。

这么看下来,感觉的确有不少的结构、尺寸缩减。Cortex-A78作为着重在效率提升上的一代微架构,看来明年高性能的担当的确会落在Cortex-X1身上。最终还是落地到Exynos 1080身上来看看吧。


市面上还不怎么能见到采用A78核心的CPU产品。因为没有对比对象,我们无从了解Exynos 1080对于Cortex-A78的实施方案具体怎么样。

Arm年中给出过一组A78相比A77各方面提升的数据,但那些主要是基于台积电的N5工艺——就让此处的对比没有那么凑效,所以提升数字就权当参考吧。


Arm的数字是,一个核心相同的1W功耗下,A78(3.0GHz,N5工艺)会比A77(2.6GHz,N7工艺)提升20%的性能;而在相同的性能水平上,A78(2.1GHz,N5工艺)功耗是A77(2.3GHz,N7工艺)的一半。这两组对比看起来还是略有点随意的……如果以相同制造工艺为前提,加上相近的核心配置,A78相比A77大约有7%的性能提升,同时降低4%功耗和4%的占地面积。

三星提及Exynos 1080的Geekbench 5单核性能成绩相较Exynos 980提升50%。考虑这两代产品工艺上是8LPP->5LPE,频率提升27%,外加架构迭代,似乎有50%的性能提升还算合理。但Arm针对两代架构所说的20%性能提升,实则已经加入了频率和工艺差异。个人认为50%的性能提升还是略超出预期的——或许5LPE工艺带来的性能提升是部分超出了预期的。

有兴趣的同学可以参考联发科天玑1000(2.6GHz Cortex-A77,N7工艺)以及Exynos 980(2.2GHz Cortex-A77,8LPP工艺)的Geekbench 5成绩来算一算,按照单核性能50%提升、多核100%提升,Exynos 1080的性能水平在哪里,以及5LPE工艺和Cortex-A78架构实际可能带来了多大的性能红利。


另外,三星不曾在发布会上提到Exynos 1080的功耗与能效表现。Arm此前公布的数据显示,在A77达到峰值性能,且A78达到与其相同性能的情况下,A78的功耗可降低至多36%(相同功耗水平下,A78提升性能至多7%)。所以Exynos 1080 CPU的效率还是可以期待一下的。

总体来看,上述CPU提升,再加上Exynos 1080对GPU的Mali-G78MP10实施方案,若三星在设计和制造上都相对得宜,这颗芯片或许会成为明年非常有竞争力的甜品级、且长寿命的芯片。因为其各方面表现都比较均衡,而且性能和效率就中端市场定位来看,还有个飞跃。

三星在发布会上提到,首款搭载Exynos 1080的手机会由vivo推向市场。另外三星也强调了vivo也参与了Exynos 1080的研发过程。这些在去年的Exynos产品中就已经是传统了。就纸面数字来看,三星的确在推广自家芯片、拓宽芯片市场的问题上开了个好头,具体还是要看这颗芯片的实测表现——以及Exynos 1080将会在多少机型上应用。

参考来源:
[1] Mobile Processor Exynos 1080 - 5G processor that will make your phone fly
(https://www.samsung.com/semiconductor/minisite/exynos/products/mobileprocessor/exynos-1080/)
[2] Samsung 5 nm and 4 nm Update - Wikichip Fuse
(https://fuse.wikichip.org/news/2823/samsung-5-nm-and-4-nm-update/)
[3] TSMC Details 5 nm - Wikichip FUse
(https://fuse.wikichip.org/news/3398/tsmc-details-5-nm/)
[4] High-Performance 5LPE Implementation Next-Generation Arm “Hercules” CPU. Kevin K. Yee (Samsung), Fakhruddin Ali Bohra (Arm), Edson Gomersall (Cadence). Arm TechCon 2019

往期精彩回顾




1、深圳一工业园区内突发大火!

2、强势起诉见效!瑞典将取消华为5G禁令

3、上游材料暴涨,PCB“涨价潮”又起?

4、中芯国际前三季净利大增168.6%

5、华为千亿卖荣耀?官方这样回应



点击阅读原文,查看更多新闻