英伟达,火力全开

李寿鹏 半导体行业观察 今天

图片


因为人工智能的助推,英伟达本身在过去几年里就一路狂飙。进入最近两年,因为“元宇宙”的火热,公司股价大涨,市值直逼万亿美元,市场关注度也空前。但对这个以GPU起家的芯片巨头来说,他们的未来不仅仅是GPU。

其实我们甚至可以直言,英伟达不再是一个单纯的芯片公司。

在一年一度的GTC大会开幕前夕,当我们看着黄仁勋在视频上一样一样地介绍着英伟达的GPU、网卡、方案和应用案例,并在期间侃侃其对元宇宙的布局和展望之后,我们看到了这个极客对未来的设想和野心。

图片

深耕数据中心


虽然在GTC主题演讲上黄仁勋没有过多地谈论其GPU,但从一些相关数据,我们可以看到了这个当前炙手可热产品对于黄仁勋构建的未来世界的重要意义。

据Nvidia 产品管理和营销高级总监 Paresh Kharya 介绍,该公司的GPU芯片已经在推动该行业实现“百万倍的飞跃”,这远远超过摩尔定律所带来的递增。Paresh Kharya 进一步指出,当前许多新应用都依赖于人工智能算法,而这些算法为Nvidia GPU上的大量晶体管提供了理想的机会。按照Kharya的预估 ,在过去 10 年中,Nvidia GPU 的原始计算能力增长了 1,000 倍,但更多硬件设计和软件算法的引入,使得数据中心中的多个 GPU 能够有效协同地高性能工作。

除了GPU以外,英伟达还在探索更多的芯片机会,以满足需求。正如黄仁勋在GTC主题演讲中所说,加速计算推动了现代AI的发展,它掀起的浪潮正在涌向科学界和全球各行各业。而这一切都基于3类芯片 —— GPU、CPU、DPU,以及从云端到边缘部署广泛的多种系统 —— DGX、HGX、EGX、RTX和AGX系统。

在演讲中,黄仁勋发布了公司新一代的InfiniBand网络平台NVIDIA Quantum-2,为云计算提供商和超级计算中心提供极致的性能、广泛的接入能力及强大的安全性。得以在这么重要的重合亮相,可以看到英伟达对其在公司未来的底层技术版图中的重要性。

图片

据介绍,NVIDIA Quantum-2 平台即400Gbps的 InfiniBand网络平台,包括NVIDIA Quantum-2交换机、ConnectX-7网卡、BlueField-3数据处理器DPU(数据处理器)和所有支持这种新架构的软件。这也是迄今为止最先进的端到端网络平台。其中,采用7nm工艺打造的Quantum-2交换机芯片集成了超过570亿个晶体管的,比NVIDIA的GA100 GPU核心(540亿晶体管)还要多。

Quantum-2交换机芯片还具有64个400Gbps端口或128个200Gbps端口,并将提供不同端口数的交换机系统,最多达2048个400Gbps端口或4096个200Gbps端口——交换能力上,超出上一代Quantum-1约 5倍。

ConnectX-7也是基于7纳米工艺设计,包含80亿个晶体管,其数据传输速率是目前世界领先的高性能计算网络芯片NVIDIA ConnectX-6的两倍,还使RDMA、GPUDirect Storage、GPUDirect RDMA和网络计算的性能翻倍。;BlueField-3 InfiniBand也采用7纳米工艺设计,包含220亿个晶体管,提供16个64位的Arm CPU,以卸载和隔离各种数据中心基础设施服务。

凭借每秒400 Gbps的高吞吐量,NVIDIA Quantum-2 InfiniBand将网速提高了一倍,网络端口数量增加了三倍。它在性能提升3倍的同时,还将对数据中心网络所需的交换机数量减少了6倍,于此同时,数据中心的能耗和空间各减少了7%。按照英伟达所说,这个新平台是为超级计算中心和全球云服务提供商准备的。

为边缘AI铺平道路


在深耕数据中心的同时,英伟达同时还深耕多个领域,而机器人就是他们专注的一个方向。日前,他们发布了全球最小、功能最强大、能效最高的AI超级计算机——NVIDIA Jetson AGX Orin,为机器人、自主机器、医疗器械和其他形式的边缘嵌入式计算带来了无限可能。

据介绍,Jetson AGX Orin建立在NVIDIA Ampere架构之上,与前代机型Jetson AGX Xavier相比,新产品的处理能力提升了6倍,那就意味着在 INT8 机器学习工作负载中实现 200 TOPS 的性能。此外,公司还为新产品保持了相同的外形尺寸和引脚兼容性。来到性能方面,Jetson AGX Orin每秒可进行200万亿次运算(TOPS),可与内置GPU的服务器相媲美,但尺寸却只有人的手掌那么大。

图片

资料显示,搭载在Jetson AGX 中的Orin处理器具有 12 个 Arm Cortex-A78AE “Hercules” CPU 内核和一个具有 2048 个 CUDA 内核的集成 Ampere 架构 GPU,多达 170 亿个晶体管,鉴于 Orin 的移动优先设计,NVIDIA 在该产品的时钟速度方面相当保守。据了解,Jetson AGX Orin 的 CPU 内核最高频率为 2GHz,而 GPU 最高频率为 1GHz。此外,SoC 还包含一对 NVIDIA 最新一代的专用深度学习加速器 (DLA),以及一个视觉加速器,以进一步加速和有效处理这些任务。Orin SoC 还搭配 32GB LPDDR5 RAM,该 RAM 连接到 256 位内存总线,可实现 204GB/秒的内存带宽,搭配的64GB eMMC 5.1可以为数据存储提供便利,容量更上一代Jetson AGX的两倍。

英伟达方面表示,全新的Jetson计算机甚至还可以加速整个NVIDIA AI软件栈,使开发者能够部署最大、最复杂的模型以解决自然语言理解、3D感知、多传感器融合等领域的边缘AI和机器人技术挑战。他们指出,使用Jetson AGX Orin的客户可以运用NVIDIA CUDA-X加速计算栈、NVIDIA JetPack SDK和最新NVIDIA工具进行应用开发和优化,包括云原生开发工作流程。来自NVIDIA NGC目录的预训练模型已经过优化并且可以使用NVIDIA TAO工具套件和客户数据集进行微调。这减少了生产级AI的部署时间和成本,而云原生技术实现了产品整个生命周期内的无缝更新。

在具体应用方面,按照英伟达所说,其针对特定用例的软件框架包括用于机器人技术的NVIDIA Isaac Sim on Omniverse,NVIDIA Clara Holoscan SDK 用于医疗健康,NVIDIA DRIVE 用于自动驾驶。最新的 Isaac 版本包括对机器人操作系统 (ROS) 开发人员社区的重要支持。NVIDIA 还发布了用于合成数据生成和 Isaac GEMs 的全新 Omniverse Replicator,这些硬件加速软件包使ROS开发者更容易在Jetson平台上构建高性能AI机器人。

值得一提的是,英伟达DRIVE AGX Orin 同样由 Jetson AGX Orin 等 NVIDIA Ampere 架构提供支持,是运输行业的首选平台。是新发布的 NVIDIA DRIVE Concierge 和 DRIVE Chauffeur 背后的先进处理器,这两个 AI 平台致力于通过 AI 助手重新定义车内乘客体验,并分别为安全的自动驾驶提供动力。全球汽车和卡车制造商、新能源汽车初创公司和机器人出租车公司等众多公司正在将其高性能 AI 计算用于其下一代智能、软件定义的移动解决方案。

按照黄仁勋在GTC主题演讲中所示,所有移动之物都将实现完全或近乎完全的自主化。“到2024年,绝大多数新电动车都将具备真正的自动驾驶功能。” 

他进一步指出,NVIDIA DRIVE是NVIDIA的自动驾驶汽车全栈开放式平台,而Hyperion 8是NVIDIA最新的完整硬件和软件架构。其传感器套件包括12个摄像头、9个雷达、12个超声波和一个前置激光雷达,所有处理均通过两个NVIDIA Orin 系统级芯片进行。

黄仁勋子啊盐加个闹钟功能详细介绍了Hyperion内置的几项新技术,包括用于DRIVE Sim的Omniverse Replicator。其中Omniverse Replicator是一个基于Omniverse的自动驾驶汽车合成数据生成引擎。

如英伟达所说,真实世界数据是昂贵、费力、需要人工标记的,它容易出错且不完整,而Omniverse Replicator扩展了这些数据,该引擎能够创建大量、多样化的精确物理数据以满足自动驾驶汽车和机器人开发者的需求。它还能生成人类难以或无法标记的真值数据,如速度、深度、被遮挡的物体、恶劣的天气条件、追踪各传感器上的物体移动等。

英伟达火力全开


其实上述的几款芯片仅是英伟达昨天分享的冰山一角。

例如,公司还推出了一款用于边缘AI推理的低功耗、小尺寸的加速器NVIDIA A2 Tensor Core GPU,其推理性能比CPU高出20倍。从配置上看,A2 似乎使用了其低端 GA107 GPU 的大幅缩减版本。由于只有 1280 个 CUDA 核心(和 40 个张量核心),A2 的尺寸仅为 GA107 的一半左右。但这与卡的尺寸和功率优化目标是一致的。A2 开箱即用仅消耗 60W,并且可以配置为进一步降低至 42W。

图片

与此同时,NVIDIA 还发布了其 Triton 推理服务器重大更新。据了解,Triton 支持在云、数据中心、企业边缘和嵌入式设备等环境中对 GPU 和 CPU 进行 AI 推理,并与 AWS、Google Cloud、Microsoft Azure、阿里云PAI-EAS 等平台集成。此外,一款经 NVIDIA 优化、认证和支持的用于开发和部署 AI 的端到端软件套件NVIDIA AI Enterprise 也集成了 Triton,客户可利用它在本地数据中心和私有云的主流服务器上运行 AI 工作负载。

据了解,全球超过 25000 余家公司部署 NVIDIA AI 推理平台,而这次Triton 推理服务器的更新则包括:

可以自动化地从数百种组合中中为 AI 模型选择最佳配置,以实现最优性能,同时确保应用程序所需服务质量的   Triton 模型分析器 ;支持基于Transformer的大规模语言模型(例如 Megatron 530B)在多个GPU和服务器节点上运行并提供实时推理性能,而不是在单个GPU上运行的多 GPU 多节点功能;针对随机森林和梯度提升决策树模型 GPU 或 CPU 推理的新后端为开发者使用 Triton 进行深度学习和传统机器学习提供了一个统一部署引擎的RAPIDS FIL;无缝集成让客户能够在 SageMaker(AWS 完全托管的 AI 服务)中使用 Triton 轻松部署多框架的模型,并实现高推理性能的Amazon SageMaker 集成以及除了 NVIDIA GPU 和 x86 CPU 外,还支持在 Arm CPU 上优化 AI 推理工作负载。

此外,英伟达还推出了为训练具有数万亿参数的语言模型而优化的 NVIDIA NeMo Megatron 框架、为新领域和语言进行训练的可定制大型语言模型(LLM)Megatron 530B。其中,NVIDIA NeMo Megatron是在Megatron的基础上发展起来的开源项目。由NVIDIA研究人员主导,研究大型转换语言模型的高效训练。而Megatron 530B则是世界上最大的可定制语言模型。

包含NVIDIA ReOpt、cuQuantum、cuNumeric、cuGraph、Modulus、Morpheus、Nemo、 Megatron、Riva、RAPIDS和DOCA在内的数十种新的或者更新的加速计算库则是英伟达本次GTC的又一个亮点,这可以为数据科学家、研究者、学生和开发者带来更好的特性和功能。

据了解,现在在NVIDIA产品目录中有150多个加速计算工具包,NVIDIA开发者计划中的近300万名成员使用这些工具包,这个数字在过去五年增长了6倍。而CUDA(并行计算平台和编程模型)仅在去年就被下载了700万次,自发布以来的下载次数更是高达3000万次。

在本届GTC上,NVIDIA 还发布了一款零信任网络安全平台,利用该平台的一整套功能,网络安全行业可构建实时保护客户数据中心的解决方案,助力客户未雨绸缪应对日渐复杂的威胁。他们表示,零信任安全平台结合了三种技术 ——  NVIDIA BlueField DPU、NVIDIA DOCA 和 NVIDIA Morpheus 网络安全人工智能框架。开发合作伙伴通过该平台可实现应用程序与基础设施隔离,增强下一代防火墙的性能,并利用加速计算和深度学习的力量来持续监控和检测威胁,从而大幅提高数据中心的安全性,而这一切的处理通过 NVIDIA 加速性能比普通服务器快 600 倍。

基于 NVIDIA Riva 语音 AI 软件,英伟达还推出了一款名为NVIDIA Riva 的定制语音软件。利用该工具,只需 30 分钟的音频数据,即可在一天之内打造类似真人的定制语音,能为为虚拟助理、呼叫中心语音和其他基于语音的应用程序提供支持。

英伟达还通过强大的AI流分析工具包DeepStream 6.0为视觉AI带来低代码开发功能。据介绍,该版本引入了Graph Composer。这一全新低代码编程工具增强了DeepStream的用户体验。DeepStream 和 Graph Composer 将用户底层平台、框架和库的具体内容抽象化,使开发者能够将构建加速应用的时间从数周缩短至数日。

在现在的英伟达大会上,少不了的环节就是元宇宙,而NVIDIA Omniverse就是他们走向元宇宙的关键核心。简而言之,这是一个用于将 3D 世界连接到共享虚拟世界的平台。黄仁勋也表示,有了Omniverse,我们就有了创建全新3D世界,或对物理世界进行建模的技术。他进一步指出,自去年年底发布以来,Omniverse已被500家公司的设计师下载了7万次。“如何使用Omniverse模拟仓库、工厂、物理和生物系统、5G边缘、机器人、自动驾驶汽车,甚至是虚拟形象的数字孪生,是一个永恒的主题。”黄仁勋接着说。在主题演讲中,他还对外发布了Omniverse Avatar。

英伟达方面表示,Omniverse Avatar能够连接NVIDIA在语音AI、计算机视觉、自然语言理解、推荐引擎和模拟方面的技术。在该平台上创建的虚拟形象是具有光线追踪3D图像效果的交互式角色,可以看到、说话、谈论各种主题,以及合理地理解表达意图。致力于助力开发者使用Omniverse创建交互式角色,并使此角色具备视觉和语言能力,能够就各类主题进行交谈,并理解自然语言中的深层含义。这就为AI助手的创建开辟了道路,而且可以根据各个行业的需求轻松定制。

图片

黄仁勋在主题演讲中也展示了Project Maxine如何利用Omniverse Avatar平台将计算机视觉、Riva语音AI以及虚拟形象动画和图形连接到一个实时对话的AI机器人——“Toy Jensen Omniverse Avatar”上。

在全球企业的推动下,元宇宙的时代正式来临,而属于英伟达的新时代,才刚刚开始。


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2855内容,欢迎关注。

推荐阅读


高毛利催生芯片制造新格局?

芯片缺货“后遗症”

苹果3nm芯片计划背后


半导体行业观察

图片

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!

图片