【深度文章】三年打造AI芯片黑科技,IBM“狩猎女神之矛”将撬动企业混合云

IBM中国 4天前

图片

图片


本文转载自云科技时代,作者:宁川 


图片

(IBM 最新推出的芯片内加速型人工处理器 Telum)


IBM 是当今世界为数不多的具备 CPU 芯片设计与制造能力的公司之一,也是企业级混合云与 AI 的领导厂商之一。作为 IT 产业唯一一家具有百年历史的高科技企业,IBM 始终以制造下一代“商业机器”为己任。早在 1960年 4月,在一份给 IBM 管理者的备忘录中,当时的首席执行官小沃森谈及 IBM 面临的问题是制造“会思考的机器”。如今,60多年过去了,聚集于企业市场的 IBM 在“会思考的商业机器”方面,创造了历史性的进步。


2021年 8月 23日,IBM 在年度 Hot Chip Conference 大会上,推出了历时大约三年研发的带有片内 AI 加速器的 7纳米处理器 Telum,将 CPU 计算核与 AI 计算核集成到一个芯片上,可以同时处理传统企业计算以及 AI 计算任务,例如在处理金融交易的同时进行实时防欺诈 AI 推理计算,让银行、零售商、保险商等能够实时拦截恶意欺诈而不是在事后追回。要知道,仅美国消费者在 2020年就因欺诈而损失高达 33亿美元,而在 2019年才为 18亿美元。


IBM 表示,基于 Telum 芯片的商用硬件系统将在 2022年上半年推出。在预热沟通会上,IBM Z & LinuxONE 产品管理副总裁 Barry Baker 介绍,阿提米斯是希腊神话中的狩猎女神,而 Telum 即为阿提米斯手中的长矛名称,因此 Telum 的命名即希望激发对“向前移动、速度和精准”的思考。


图片

(IBM Z & LinuxONE 产品管理副总裁 Barry Baker)


笔者认为,考虑到 IBM z14 已经实现一台 z14 即一个企业混合云数据中心,那么基于 Telum 的 IBM 商用硬件系统无疑将重塑企业混合云与 AI 战略。



“狩猎女神”的“猎物”





Telum 芯片并不是 IBM 凭空想像而创造出来的黑科技。金融业务一直是被誉为企业级市场的“皇冠”,传统银行已经是国民经济的支柱之一,而现代数字金融又已经融入到了众多行业企业的业务流程,在线保险、在线零售、在线医疗等等几乎所有数字化转型的企业和机构都会涉及到在线交易。凡涉及到在线交易,就有金融欺诈的可能。AI 人工智能在给企业带来全新反金融欺诈技术的同时,又迫切需要从事后处理转到实时处理,才能带来更高商业价值。


图片

(IBM Telum 用于实时 AI 推理计算)


把 AI 用于实时反金融欺诈,面临着三大挑战。首先,以深度神经网络为代表的 AI 算法正在向需要更大模型、更大计算量、更大功耗的方向发展,这让 AI 计算很难嵌入到实时的业务交易处理中;其次,目前已有的 AI 算法软件,需要将数据从 CPU 芯片传输到片外的其它地方,有时甚至要通过互联网或企业网传输到远处的数据中心进行 AI 计算后,再返回到数据源头,这会导致由于数据传输延时而无法及时处理可能的欺诈行为;第三,即使将数据从 CPU 芯片传输到同一硬件系统里的独立 AI 加速卡,也会导致安全风险。


IBM 院士、IBM 研究院加速器架构和机器学习高级主管 Kailash Gopalakrishnan 表示,实时 AI 计算的挑战带来了每 10年到 30年才会发生一次的重大企业计算架构变迁。上一次重大企业计算架构变迁,以 IBM Z 主机和 Power 服务器为代表;而本次推出的 Telum,其对企业计算的影响力和影响程度绝不亚于 Z 主机和 Power 服务器。


笔者认为,随着 Telum 以及基于 Telum 的商用硬件系统的推出,AI 在以混合云为代表的下一代企业计算中将真正无处不在——这才是“狩猎女神”的“猎物”。



三年锻造“狩猎女神之矛”





Telum 芯片设计是 IBM 全栈式系统设计的最新成果,结合了芯片设计、硬件系统、系统驱动和固件、操作系统和中间件等全栈的联合优化,而这一整套的全栈系统设计是为了满足企业的关键业务计算需求。Telum 作为下一代 IBM 微处理器芯片,可处理每秒钟数以万笔计的交易业务,同时实时完成 AI 推理计算,也就是说新的芯片在一个数据流中、在毫秒级响应时间内同时完成传统及 AI 两种计算任务,而不用把数据传送到 CPU 以外的地方。


图片


Telum 是 IBM 耗费三年的最新研究成果,是 IBM 研究院 AI 硬件中心首个研究成果的商用转化产品,是 IBM 研究院、IBM Z 产品部门以及产业生态伙伴(三星是 7纳米制程结点技术 7nm EUV 的产业合作伙伴)的联合努力成果,也是 CPU 和 AI 加速器领域的最新黑科技。IBM Telum 采用 7纳米制程结点工艺,这是当今服务器芯片领域最先进的制造工艺,尽管 IBM 研究院于今年 5月发布了全球首个 2纳米芯片制造工艺,但距离量产仍有相当的距离。


7纳米工艺的最大好处,就是可以在同样尺寸的芯片上集成更多的晶体管,从而完成更多的计算任务。Telum 芯片就包括了 220亿个晶体管,17层金属层的线路总长达到 19英里。这样,Telum 芯片就可以在同样功耗甚至更低功耗下,容纳更多的计算任务,其中就包括了实时 AI 推理计算。


图片

(IBM 研究院 AI 硬件中心成立时的愿景示意)


Telum 的研发工作,相当一大部分源自 IBM 研究院的努力。2019年 2月,IBM 研究院专门成立了 AI 硬件中心,当时就鉴于 AI 模型越来越大、计算量需求越来越大、功耗越来越高的现状,试图从半导体芯片设计开始彻底解决这一问题。成立之初,IBM 研究院 AI 硬件中心的目标就设定为将人工智能系统效率在未来十年提升千倍。具体说来,基于当时技术的深度学习计算在 2020年左右达到 1TFlops/W,基于数字AI内核技术深度学习计算在 2022年左右达到接近 10TFlops/W,而今年 2月 IBM 研究院在 ISSCC 国际会议上发布的 7纳米 4核 AI 加速芯片原型的能效比最高达到 3.5TFlops/W、整数计算能效比最高达 16.5TOPs/W,远高于业内水平。随后,Telum 芯片的单片 AI 计算能力则达到 6TFlops/W。


“Flops/W”代表的是每瓦功耗所产生的算力,显然增加单位面积晶体管数量并不能完全达成更高能效比的目标。为此,IBM 研究院从2017年开始着手研究提升 AI 芯片的能效比,也就是每年提升 AI 硬件计算能效比 2.5倍,十年后提升千倍。除了芯片的制造工艺外,为了提升 AI 计算能效比,IBM 从简化 AI 算法入手,这就是超低精度 AI 算法。实际上,与传统 CPU 的高精度浮点计算不同的是,AI 计算是整数计算和矩阵计算的结合,因此用低精度浮点运算取代高精度浮点运算的同时保持 AI 模型的高质量结果,就成为一个算法优化方向。在 2021 ISSCC 大会上展示的 IBM 高能效 7纳米 4核 AI 芯片原型,就采用了混合 8位超低精度 AI 算法,即 8位精度浮点计算用于 AI 训练和 4位精度浮点计算用于 AI推理。


除了超低混合精度 AI 算法、更低纳米制造工艺外,Telum 芯片还有很多创新之处,包括完全重新设计的缓存和片内互联技术,实现了 CPU 计算核心和 AI 计算核心的片内高速超低时延数据共享。资料显示:其中,每个 Telum 计算核有 32MB 的 L2 缓存,这些 L2 缓存互联形成 256MB 共享虚拟 L3 缓存以及每 8个 Telumn 芯片形成 2GB 的共享虚拟 L4 缓存,这是能够实现片内 AI 实时计算的关键之处。


简而言之,三年打造的“狩猎女神之矛”,是多项 IBM 黑科技的集大成之作,将撬动企业混合云与 AI 平台市场。



发展下一代企业混合云与 AI 平台





Telum 加速器将成为下一代高性能计算系统的核心。IBM Z 处理器历来有嵌入各种专项加速器的历史,从而提升加密、压缩等通用计算任务的性能。而 Telum 集成了多达 6TFlops 片内 AI 算力,每个计算核都能够动态利用整个片内的计算资源,以最小化 AI 推理计算时延。基于 Telum 的下一代 IBM Z 系统,可支持高达 200TFLops 的系统内 AI 算力。由于采用了集成的加速器架构并直接连接到片上缓存体系,Telum 适用于企业关键业务。


为什么说 IBM Telum 是下一代企业级混合云与 AI 平台呢?简单理解,目前的 IBM Z 和 LinuxOne 主机已经能够实现一台主机即一个企业云数据中心,而 IBM 收购了 Red Hat 软件资产后进一步将 Red Hat Openshift 开放混合云软件与 IBM 主机结合,从而将 IBM 主机承载企业混合云的关键工作负载,也可以理解为成为企业混合云的“计算中心”。企业可以通过 IBM 主机管理外部的多云资源,同时用 IBM 主机的普遍加密技术处理企业敏感数据和应用,并通过 IBM 主机完成混合云的安全保障。


除了极强的嵌入实时 AI 算力外,IBM Telum 也具备极强的故障恢复和安全保护能力。Telum 的安全执行模式,改进了 Hyper Protected Virtual Server 的性能与可用性,提升了开发人员在可信计算环境中的云原生应用开发能力。Hyper Protected Virtual Server 是 IBM Secure Service Container for IBM Cloud Private 的技术演进,让开发人员能够使用熟悉的工具和自动化的持续软件交付管道,在私有、公有或混合云中进行开发,并提供整个云原生应用开发生命周期的安全性。而 IBM 还为 Telum 重新设计了 8通道内存接口,可以允许通道或 DIMM 在失效的时候,以透明的方式恢复数据,而不影响计算响应时间。


高度安全可信的 IBM Telum 系统,让企业可以更好地利用实时 AI 推理计算能力,在高速交易结果没有完成之前就完成诸如欺诈分析的计算,从而及时拦截恶意交易。例如,今天的一家国际银行用 IBM Z 系统的 AI 计算能力对信用卡授权流程进行处理,而不用使用远程的 AI 推理应用,就能在信用卡交易授权过程中检测到欺诈行为;未来,该银行需要在毫秒级别的交易响应时间内利用复杂的深度学习AI模型,实现每秒 10万笔交易、也就是今天交易量的十倍以上规模,同时还要达到低于毫秒级时延的每笔交易欺诈检测,这就是 Telum 的设计目的——大规模高速运行关键业务交易与 AI 处理结合的计算。


Barry 在预沟通中还介绍了 Telum 的其它潜在应用场景。除了金融欺诈外,在零售领域由零售品牌商提供的积分奖励计划就有可能被零售店员或消费者利用获利,这是零售行业的潜在欺诈行为。另一个零售行业的应用场景是寻找销售增长机会,也就是在消费者扫描商品并结算付费的过程中,零售商如何针对消费者个人的购买行为和已购商品,实时提供个性化的促销,从而扩大消费者每次的“购买篮子”。




全文总结



嵌入了 AI 加速器的 IBM Telum 芯片,是开创性的企业计算架构。由于将实时 AI 推理计算集成到了 CPU 处理器中,企业可以达到毫秒级同时处理传统业务交易和 AI 推理计算,这种集成了传统关键计算任务与新型 AI 计算任务的微处理器架构和毫秒级处理能力,将为混合云时代的企业带来全新商业价值,也将开创每 10-30年才出现一次的企业计算架构革新。




END


往期回顾

→ 向 HR 3.0 时代迈进,新常态下企业人才及未来工作转型创新探索 

→ IBM 推出芯片内加速型人工智能处理器



图片

IBM中国
公司的许多业务仍没有实现真正的数字化?项目完成周期冗长?传统运营方式难以满足业务需求?看拥有130年历史的服装品牌 Carhartt 如何在IBM的帮助下实现数字化转型,抓住实现自动化的机遇并提高环境监控的可预测性。#IBM #Carhartt

图片


小程序, IBM云智荟 交易担保 把精选视频和成功案例装进手机

图片

图片

点击“阅读原文”,了解更多

图片