来源:内容来自「飞腾PHYTIUM」,谢谢。
近日,百度智能芯片总经理欧阳剑在一次线上公开课中首次展示了百度昆仑 AI 芯片与飞腾 CPU 的适配视频片段。视频显示,搭载飞腾 CPU、昆仑加速卡的服务器,运行流畅,性能强劲,图像分割速度显著加速。而在去年12月19日的飞腾首届生态合作伙伴大会上,欧阳剑就曾分享了百度昆仑 AI 芯片与飞腾 CPU 的适配进展。百度昆仑芯片是继百度飞桨(PaddlePaddle)深度学习平台之后,百度又一重量级 AI 产品与飞腾完成适配。目前,百度与飞腾携手,已实现了 AI 算力全国产化。二者联合提供的解决方案有望成为 “ 新基建 ” 大潮中市场的全新选择。
近年来,人工智能技术取得快速发展,不仅归因于大数据的支撑,更离不开计算机芯片算力的不断增强,而实现超级算力的核心就是 AI 芯片。百度昆仑 AI 芯片是百度自研的云端全功能 AI 芯片,采用百度自研 XPU 神经处理器架构,提供 512GB/s 的内存带宽,能够在 150W 的功耗下提供高达 260 TOPS 的能力,是业内算力领先的国产 AI 芯片。百度已推出了两款基于昆仑的 AI 加速卡:K100 和 K200。其中,K200 在 Gemm-Int8 数据类型、4K x 4K的矩阵下,Benchmark 分数超 200Tops,是英伟达 T4 的 3 倍多;BERT、ERNIE 、YoloV3 等模型的推理性能也展现出显著提升。目前,飞腾 CPU 已与百度昆仑 AI 芯片完成了 算力、架构、技术 三个方面的适配。在新算力层面,与百度昆仑 AI 芯片完成适配的 飞腾 FT-2000+/64 处理器 是飞腾面向高性能服务器领域的产品。该款处理器设计了数据亲和的多核处理器体系架构,突破了高效乱序超标量流水线、层次化片上并行存储结构、多级异构片上互连网络、高可用处理器设计等关键技术,实测性能达到了国际主流服务器 CPU 同等水平,填补了国产高端通用 CPU 领域的空白,是中国首款自主设计的 64 核通用 CPU,也是国际上首款兼容 ARMv8 指令集的 64 核通用 CPU,为百度昆仑 AI 芯片提供了高效完整的 AI 计算流程支撑。在新架构层面,飞腾是从云到端的通用计算架构,同一套架构支持不同的场景,而百度昆仑采用 XPU 架构,二者的有机结合,将打造新的 “ 普适架构 ”。在新技术层面,芯片和操作系统等底层技术此前一直是国外巨头占据主导地位,但每一次产业迭代都意味着一次洗牌的契机,新的技术体系将会建立。当前正处于 AI + 智能云时代,从芯片架构、操作系统,再到上层应用,都有了革命性的变化。百度昆仑+飞腾CPU+国产OS,再加上国产深度学习平台百度飞桨(PaddlePaddle),以及新时代的各类应用,全国产的 AI 计算体系将登上历史舞台,并且有机会成为新的选择。就市场而言,随着 “ 新基建 ” 浪潮兴起,以芯片、服务器等产品为代表的信息产业发展正在按下 “ 加速键 ”。AI 算力需求将逐步迈入高峰期,更高性能的 AI 服务器将迎来高速增长,计算正和水、电一样成为最基本的社会基础设施。飞腾 CPU 芯片、百度昆仑 AI 芯片的成功适配和即将落地的应用,将构成自主国产芯片的联合解决方案,发挥算力的 “ 乘数效应 ”,助力国产服务器在 AI 场景下显著提升算力,为众多合作伙伴赋能。