AI初创公司Groq宣布世界首个1000000000000000OPS性能单芯片

关注半导体的 半导体行业观察 5天前
来源:内容由半导体行业观察(ID:icbank)综合自官方新闻稿和Wikichips,谢谢。


快速增长的AI芯片初创公司Groq,Tensor Streaming Processor(TSP)架构和新的类计算的发明者日前布,其TSP架构在单芯片实现上能够达到1 PetaOp / s的性能。Groq体系结构是世界上第一个达到此性能水平的体系结构,相当于每秒执行一次万亿次运算,即1e15 ops / s。Groq的体系结构还能够每秒进行多达250万亿个浮点运算(FLOPS)。
 
Groq的联合创始人兼首席执行官乔纳森·罗斯(Jonathan Ross)说:“我们为行业和客户感到兴奋” ,“顶级GPU公司一直在告诉客户,他们希望能够在未来几年内提供一种PetaOp / s的性能的产品,而Groq在现在做到了,并以此设定了新的性能标准。相比其他竞争者,Groq架构比其他任何推理都快数倍。我们与客户的互动证实了这一点:我们第一批芯片回片了,第一天点亮了,并运行了一周的程序,我们有信心在不到六周的时间向客户提供样片内”,Jonathan Ross说。

软件优先思想的启发,Groq的TSP架构提供了新的范例,可实现计算灵活性和大规模并行性,而无需像传统GPUCPU架构那样。Groq的体系结构既可以支持传统的机器学习模型,也可以支持新的机器学习模型,并且目前已在x86和非x86系统的客户站点上运行。
 
Groq新的,更简单的处理体系结构是专门为满足计算机视觉机器学习和其他与AI相关的工作负载的性能要求而设计的。其执行计划在软件中进行,从而释放了宝贵的空间,而这些空间原本专用于动态指令执行。此体系结构提供的严格控制提供确定性处理,这对于安全性和准确性至关重要的应用特别有价值。与基于CPUGPUFPGA的复杂传统架构相比,Groq的芯片还简化了资格认证和部署,使客户能够简单,快速地实现可扩展的高性能每瓦系统。
 
Groq的首席架构师Dennis Abts说:“ Groq的解决方案非常适合用于广泛的应用程序的深度学习推理处理,但是,即使有如此巨大的机会,Groq的解决方案也可以用于广泛的工作负载。加上其简单性,使其成为处理任何高性能,数据或计算密集型工作负载的理想平台。”
 

谈谈TSA(Tensor Streaming Architecture)


与大多数其他初创公司和现有处理器不一样。Groq的这个架构被设计为功能强大的单线程流处理器,并配备了专门设计的指令集,以利用张量操纵(tensor manipulation )和张量移动(tensor movements)的优势,从而可以更高效地执行机器学习模型。该体系结构的独特方面是执行单元,内存和其他执行单元之间的交互。
 
Groq的魔力不仅在于硬件,而且在于软件。实际上,是编译器先出现,而不是原型硬件体系结构。软件定义的硬件在这里起着重要的作用。Groq的软件将张量流模型(Tensor flow models )或其他深度学习模型编译为独立的指令流,这些指令流可提前得到高度协调(coordinated)和精心安排(orchestrated)。工作流程来自编译器。它可以提前确定并计划整个执行,从而实现非常确定的计算。“这种确定性来自我们的编译器静态调度所有指令单元。这使我们无需进行任何aggressive speculation 来公开指令级并行性。芯片上没有分支目标缓冲区(branch target buffers )或缓存代理(caching agents)。” Groq首席架构师Dennis Abts解释说。
 
它的确定性体系结构(deterministic architecture)的一大优势是消除了由于同步(synchronization)而导致的等待时间。在更传统的多核设计中,性能和扩展的限制因素是最后的响应,这可能会停滞同步(synchronization)。换句话说,参与该同步事件的最后一件事使您陷入瓶颈。
 
对于Groq的TSP,这是zero-overhead的同步。确定性行为还有其他好处。在对安全至关重要的应用中,从连续推断得出的可预测性能至关重要。同样,在数据中心中,Groq认为管理现代芯片组随附的电源和运行时电源交互非常复杂,例如动态频率缩放和其他复杂的电源管理技术。借助其TSP,执行和电源行为始终是相同的,并且是在编译时预先确定的。
 
“确定性执行使我们着迷的事情之一,是我们能够在编译时准确地知道该模型的性能,直到时钟周期为止。该性能非常可预测且可重复。因此,我们避免了复杂的hardware speculation和aggressive speculatio技术,以能够公开更多的ILP。这是一个结构化且简单得多的设计,” Abts说。因此,我们避免了复杂的硬件推测和激进的推测技术,以能够公开更多的ILP。这是一个结构化且简单得多的设计,” Abts说。
 
TSP存在一些有趣的挑战。边缘推理通常涉及一组任务-——能在TSP上同时完成。确定性来自其单线程流方法。根据active input,他们只需根据需要交换新数据。芯片的确定性可能会在很大程度上弥补这一缺陷。
 
尽管该架构可以同时实现这两种功能,但其当前芯片是为推理而设计的,旨在从边缘到数据中心的所有内容进行大规模部署。他们向WikiChip显示了该芯片的照片,尽管我们目前还不能发布,但下面显示了简化的平面图。芯片本身有很多算术单元。还有大量的片上存储器,可实现非常高的带宽(每秒数十TB),旨在保持运算单元的馈送和数据路径的繁忙。
 
片上存储器被视为每个人都可以访问的全局共享的大型暂存器。这与更传统的多核方法不同,后者将内存分为较小的单个私有内存片。当前所有工作均保留在片上存储器中。为此,当前芯片能够进行1 petaOPS的计算。
 
请注意,算术单元同时包含整数单元和浮点数。对于Groq来说,这是一个非常重要的设计选择–。Groq不仅包括整数或浮点数,而且还不像大多数其他神经处理器那样采用整数或浮点数。它声称这使客户可以更轻松地构建他们的模型并计划其AI路线图。得益于其浮点运算单元,它还能够每秒进行多达250万亿个浮点运算(250 teraFLOPS)。
 
目前,Groq只在谈论单芯片配置。该芯片配备了高带宽芯片间接口,旨在支持扩展到更大的模型,并能够利用多个芯片之间的模型级并行性。
 

Tomasko解释说,其平稳开发的部分原因还在于其确定性的体系结构,这使他们可以大大减少验证时间。测试用例每次执行时都将始终以相同的方式运行,而不会出现奇怪的边缘情况,长尾或各种复杂的竞争条件,也不会影响运行时机器行为的事件组合。
 
目前,Groq正在使用PCIe加速卡向客户提供样品。不过,将来它可能会扩展到其他类型的平台。预计Groq将在未来几个月内进一步公开披露信息。

另外,我们还提供了了TSA架构的详细资料,想获得 ,请把这个文章转发朋友圈,并回复“Groq架构”,你将获得相关下载链接。
 
参考链接:

https://www.prnewswire.com/news-releases/groq-announces-worlds-first-architecture-capable-of-1-000-000-000-000-000-operations-per-second-on-a-single-chip-300958743.html
 
https://fuse.wikichip.org/news/3005/groq-tensor-streaming-processor-delivers-1-petaops-of-compute/


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2130期内容,欢迎关注。

推荐阅读


中国8吋晶圆市场迎来集体爆发时刻

ASML独霸EUV光刻机背后:你不一定知道的设备格局

下一代存储的选择,国产相变材料进展如何?


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

AI晶圆台积电射频华为集成电路TWS耳机|小米



回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!