用于人工智能IC的更快速神经网络处理

新思科技 电子工程专辑 今天


随着人工智能技术深入到我们生活的各个角落,构成AI系统主干的芯片需要提供不同级别的性能。某些应用程序(例如面部识别和中端智能手机)可能需要每秒不到1万亿次运算(TOPS)的性能。增强现实、监控和汽车后置摄像头等中端应用通常需要1到10个TOPS的性能。高端应用,例如用于安全关键场合的汽车前置摄像头、微服务器和数据中心等,则可能需要10到100 TOPS或更高的性能。


通过提高神经网络引擎性能来满足中高端应用的需求并不像简单地将几个IP(处理器或加速器)连接在一起那么容易。实际上,更多的乘累加单元(MAC)添加到加速器中是扩展神经网络性能的最简单方式。但更具挑战性的,更重要的是提高MAC利用率,达到提升效率和降低功耗此外,改善内存带宽对于最小化芯片的功耗至关重要,因为功耗会随着外部存储访问量的增加而急剧变化。当然,软件工具链需要能够在增加的MAC单元上对图形进行有效划分。


为了满足性能、带宽、利用率和功耗方面要求,Synopsys公司推出了内嵌深度神经网络(DNN)加速器的ARC EV7x嵌入式视觉处理器IP。DNN加速器提供了高达35 TOPS的性能,可以执行所有的CNN图形,包括最新、最复杂的图形和自定义的图形。除DNN加速器之外,EV7x还包含一套视觉引擎,用于低功耗、高性能视觉、同步定位和映射(SLAM)以及DSP算法



DesignWare ARC EV7x视觉处理器的异构多核架构包括多达四个高性能VPU。每个EV7x VPU包含一个32位标量单元和一个512位宽矢量DSP,可配置为8位、16位或32位运算,用于在不同的数据流上同时进行乘法-累加。可选的DNN加速器可以从880 个MAC扩展到14,080个 MAC,并且相对于其他神经网络IP,采用专用架构可以实现更快的内存访问、更高的性能和更好的功耗效率。除了支持卷积神经网络(CNN)之外,DNN加速器还支持批量LSTM(长短期记忆),用于需要基于时间序列的应用,例如根据观察到的路径和速度预测行人的位置。该视觉引擎和DNN加速器采用并行方式对任务进行处理,使得EV7x对于自动驾驶汽车ADAS的应用特别高效,因为在这些应用中需要多个摄像头和视觉算法同时运行。


为了满足高于35 TOPS的性能要求,例如汽车前置摄像头系统, EV7x处理器中的35 TOPS DNN比竞争对手的解决方案需要更少的组件连接到片上网络(NoC)。更少的组件能够减少NoC流量,从而减少潜在的性能瓶颈。


声明:本文由新思科技供稿,本公众号对文中陈述、观点保持中立。 


有关内嵌DNN加速器的ARC EV7x处理器IP更多信息,请点击“阅读原文”:
    已同步到看一看