Arm发布全新A78/G78/N78内核!还有支持自定义的Cortex-X系列CPU


北京时间5月26日晚间,Arm正式公布了其最新的高端移动内核IP,即Cortex-A78 CPU、Mali-G78 GPU以及Ethos-N78 NPU,它们将为2021年及以后的下一代旗舰智能手机提供动力。与此同时,Arm还推出了全新的支持自定义的Cortex-X系列内核。


Cortex-A78:5nm下性能提升20%,功耗降低50%


据介绍,Cortex-A78 CPU内核是基于Austin微架构的第三代产品(前两代是Cortex-A76和Cortex-A77),不过,Cortex-A78并没有盲目追求性能提升,依然是注重于性能、功耗和面积的平衡。


根据ARM的说法,Cortex-A78的架构性能(也就是IPC)只提升了7%,功耗降低了4%,内核小了5%,四核簇面积的缩小了15%。虽然微架构上变化不大,但是如果跟工艺结合起来,那Cortex-A78在5nm加持下就变化很大了。



在同样的每核心1W功耗下,基于7nm工艺的Cortex-A77主频可以达到2.6GHz,而基于5nm工艺的Cortex-A78频率可达3.0GHz,性能提升了20%左右。


在能耗方面,在相同的性能下,5nm工艺的2.1GHz Cortex-A78功耗比7nm工艺2.3GHz的Cortex-A77降低了50%,有助于提高5G手机的续航。


Arm表示,Cortex-A78主要面向2021年及以后的下一代旗舰智能手机。不过考虑到现在已经接近年中,最快可能也要2021年底见到相应的产品。Arm也没提到有哪些公司现在应用了这个架构。


全新Cortex-X系列内核:为性能而生


除了Cortex-A78之外,Arm此次还推出了全新的Cortex-X系列CPU内核,Cortex-X1则是该系列的首款CPU内核。



与Cortex-A78还要兼顾性能、功耗、面积不同,Cortex-X1使用了全新的架构,是Arm专门为实现性能大幅提升而设计的。


Cortex-X1还提供了更灵活的定制特性。大家都知道,Cortex-A系列公版授权能改的地方不多,主要就是缓存部分,而Cortex-X1则允许客户进行自定义,有更多的不同特性,在研发早期阶段就允许客户参与。


从架构细节上来看,Cortex-X1与Cortex-A78都是ARMv8.2指令集下的,指令集是兼容的,但Cortex-X1是自定义CPU内核,解码带宽从4路提升到5路,增加了25%,NEON浮点从2×128b提升到了4×128b,相当于浮点性能翻倍。缓存方面,Cortex-X1的L1缓存可达64KB,L2缓存1MB,L3缓存可达8MB,均是Cortex-A78的两倍。



那Cortex-X1的性能提升到底如何呢?根据Arm公布的资料显示,与Cortex-A77架构相比,Cortex-X1的整数性能提升了30%,比最新的Cortex-A78也提升了22%,机器学习性能提升了100%。


当然,那些性能提升是理论值。在SPEC2006的测试中,单核性能提升4%到30%不等,似乎并没有想象中的给力。不过需要指出的是,这个测试仍是基于Arm公版Cortex-X1的性能,而后续各芯片厂商推出的自定义的版本性能或将更强。


有了Cortex-X1之后,第一个想到的其实就是超大核,因为高通华为骁龙865、麒麟990上都设计了三簇核心,不像之前的4+4大小搭配,而是变成了2+2+4或者1+3+4等,将其中1个或者2个大核心独立出来,频率也是最高的。


现在Cortex-X1的问世,则意味着,后续Cortex-X1可以跟Cortex-A78、Cortex-A55核心搭配起来使用。


一种典型的组合就是1个Cortex-X1超大核、3个Cortex-A78大核,再加上4个Cortex-A55低功耗小核,搭配1MB L2、8MB L3,组成一套DynamIQ集群。


4个Cortex-A78、搭配4MB L3缓存,其性能比前代升20%,同时核心面积降低15%,而1个Cortex-X1、3个Cortex-A78搭配8MB L3缓存的话,虽然核心面积会增加15%,但峰值性能提升了30%。


Mali-G78 GPU:性能提升25%


除了通用计算部分更新升级 ,Arm又带来了新的旗舰级Mali-G78 GPU、次旗舰级Mali-G76 GPU。


去年的Mali-G77首次采用了全新的Valhall图形架构,得到了顶级SoC的广泛采纳,而这次的Mali-G78自然是它的升级版,最突出的就是首次支持到24个核心,相比Mali-G77 16个增加了一半。


Arm宣称,综合架构、工艺等各方面的改进,Mali-G78相比于Mali-G77的性能提升幅度可达25%,即便是在同等工艺条件下也可提升15%, 同时能效提升10%,机器学习性能提升15%。



除了扩大规模,Mali-G78在架构方面也做了升级改进,但并不是很多,官方重点强调的只有一点,就是从整个GPU只有一个全局时钟域,改为新的两级结构,实现了上层共享GPU模块与实际着色器核心频率的分离,也就是异步时钟域。


这样一来,GPU的核心可以工作在与其他部分不同的频率上,可快可慢,从而解决几何输出与计算、纹理、引擎之间的不平衡问题,还能让GPU运行在不同电压上,从而降低功耗、提高能效,这也是桌面级CPUGPU通用的做法。


另外,Mali-G78彻底重写了FMA(融合乘加)引擎,包括新的乘法架构、新的加法架构、FP32/FP16浮点,可以节省30%的功耗。



Mali-G78 还有一个名为 Mali-G68 的小改款,定位中端,其核心设计与 G78 完全相同,区别在于最高仅支持 6 个 GPU 核心,用限制核心数量来区隔产品之间的性能上限。


Ethos-N78 NPU


Arm还推出全新的第二代NPU内核Ethos-N78,主要负责机器学习任务,相比上一代 Ethos-N77 峰值运算性能提升超过 2 倍,能效提升 25%。



N78将提供超过90种不同的配置,为专门的工作流程。这意味着,芯片设计厂商计划实现一些严重依赖于机器学习性能的新功能,它可以选择一个针对该用例表现最佳的改进版本。


编辑:芯智讯-林子    综合自网络

往期精彩文章

华为打造无美系设备的产线,台积电三星能做到吗?

美国“卡脖子”的技术清单中,EDA软件如何突围?

突发!美国将360、云从、烽火科技等33家中国企业列入“实体清单”

联发科、展锐5G芯片已成华为麒麟最佳“备胎”!

限制华为的新规有“漏洞”?美国监管机构准备封堵

被裁定专利侵权!大疆无人机或遭美国禁售

无奈!台积电不得不暂停接受华为新订单

联发科天玑820发布:Redmi首发!华为和荣耀将推天玑800新机?

关于华为事件的终极推演

一文看懂半导体CMP核心材料:国外巨头全面垄断,国产化程度极低!

行业交流、合作请加微信:icsmart01
芯智讯官方交流群:221807116