科研成果 | 中心在 ISSCC 2021会议发表6篇论文

图片

图片


第68届ISSCC(国际固态电路会议)以“Integrated Intelligence is the Future of Systems”为主题,于2021年2月13日至22日在线上举行。ISSCC 2021年从全球12个领域收到580篇论文,其中录用论文有195篇,入选比例为33.6%。本届会议上,中国大陆及港澳地区入围的论文共22篇,中心入围的论文数为6篇,囊括了清华大学在本次会议上的全部入选论文,位居国内高校首位。一起来学习这6篇论文吧!


 ML Processors From Cloud to Edge 

A 28nm 12.1TOPS/W Dual-Mode CNN Processor Using Effective-Weight-Based Convolution and Error-Compensation-Based Prediction 

H. Mo1 , W. Zhu1 , W. Hu1 , G. Wang1 , Q. Li2 , A. Li1 , S. Yin1 , S. Wei1 , L. Liu1 1 Institute of Microelectronics of Tsinghua University, Beijing, China; 2 Intel, Beijing, China


mm-Wave Transceivers for Communication and Radar


A 1V W-Band Bidirectional Transceiver Front-End with <1dB T/R Switch Loss, <1°/dB Phase/Gain Resolution and 12.3% TX PAE at 15.1dBm Output Power in 65nm CMOS Technology

W. Zhu, J. Wang, R. Wang, Y. Wang, Institute of Microelectronics of Tsinghua University, Beijing, China


Compute-in-Memory Processors for Deep Neural Networks

A 2.75-to-75.9TOPS/W Computing-in-Memory NN Processor Supporting Set-Associate Block-Wise Zero Skipping and Ping-Pong CIM with Simultaneous Computation and Weight Updating

J. Yue1,2, X. Feng1 , Y. He1 , Y. Huang1 , Y. Wang2 , Z. Yuan1 , M. Zhan1 , J. Liu1 , J-W. Su3 , Y-L. Chung3 , P-C. Wu3 , L-Y. Hung3 , M-F. Chang3 , N. Sun1 , X. Li1 , H. Yang1 , Y. Liu1 1 Tsinghua University, Beijing, China 2 Pi2star Technology, Beijing, China 3 National Tsing Hua University, Hsinchu, Taiwan


A 5.99-to-691.1TOPS/W Tensor-Train In-Memory-Computing Processor Using Bit-Level-Sparsity- Based Optimization and Variable-Precision Quantization

 R. Guo1 , Z. Yue1 , X. Si2 , T. Hu1 , H. Li1 , L. Tang1 , Y. Wang1 , L. Liu1 , M-F. Chang3 , Q. Li2 , S. Wei1 , S. Yin1 1 Tsinghua University, Beijing, China 2 University of Electronic Science and Technology of China, Chengdu, China 3 National Tsing Hua University, Hsinchu, Taiwan


High-Performance VCOs

A 60GHz 186.5dBc/Hz FoM Quad-Core Fundamental VCO Using Circular Triple-Coupled Transformer with No Mode Ambiguity in 65nm CMOS

H. Jia, W. Deng, P. Guan, Z. Wang, B. Chi Tsinghua University, Beijing, China


Discrete-Time ADCs

A 250kHz-BW 93dB-SNDR 4th-Order Noise-Shaping SAR Using Capacitor Stacking and Dynamic Buffering 

J. Liu1 , D. Li2 , Y. Zhong1 , X. Tang3 , N. Sun1,3 1 Tsinghua University, Beijing, China 2 Xidian University, Xi’an, China 3 University of Texas, Austin, TX



图片


图片

 ML Processors From Cloud to Edge

图片


量化卷积神经网络(CNN)加速芯片——QNAP

魏少军刘雷波教授等发表题为 “A 28nm 12.1TOPS/W Dual-Mode CNN Processor Using Effective-Weight-Based Convolution and Error-Compensation-Based Prediction ”的论文,发布了一款量化卷积神经网络(CNN)加速芯片——QNAP。通过挖掘量化后CNN模型权值大量冗余的特征,研究团队提出一种能够显著减少冗余权值造成冗余乘操作的优化方法,降低了硬件功耗;同时,还提出了一种减少ReLU激活函数造成冗余乘加操作的预测方法,显著提升了CNN硬件的运行性能;此外,针对广泛使用的残差结构,团队提出一种专用的流水结构,减少了残差结构中大量的片外访存操作。基于TSCM 28 nm工艺,QNAP芯片仅消耗1.9 mm2的面积就实现了高达12.1 TOPS/W的能效,显著优于已有结果。


图片

QNAP芯片照片及其硬件指标

图片

mm-Wave Transceivers for Communication and Radar 

图片


W波段CMOS相控阵收发前端芯片
王燕教授等发表了题为 “A 1V W-Band Bidirectional Transceiver Front-End with <1dB T/R Switch Loss, <1°/dB Phase/Gain Resolution and 12.3% TX PAE at 15.1dBm Output Power in 65nm CMOS Technology”的论文。针对毫米波段相控阵收发机前端芯片面临的收发开关插入损耗过大,移相器和衰减器的分辨率受限,移相器/衰减器的附加增益/相位变化过大等三大挑战展开研究,研究团队提出一种全新的适用于毫米波以及更高频段的各模块电路实现方式,发布了一款能支持毫米波频段通信,雷达以及成像等应用的高性能双向W-band相控阵收发机前端芯片。该芯片采用低成本的65nm CMOS工艺实现,在国际上首次实现了W-band的收发开关,移相器和衰减器的全集成,同时实现了国际已发表工作中最高的8.9-bit移相位数,6-bit增益控制位数以及9.5dBm单通道输出1dB压缩点和12.3%的峰值功率附加效率。


图片

高性能双向W-band相控阵收发机前端芯片显微照片


图片

Compute-in-Memory Processors for Deep Neural Networks

图片


存内计算神经网络处理器芯片
杨华中刘勇攀教授等发表题为“A 2.75-to-75.9TOPS/W Computing-in-Memory NN Processor Supporting Set-Associate Block-Wise Zero Skipping and Ping-Pong CIM with Simultaneous Computation and Weight Updating”的论文。文章针对传统存内计算架构计算资源浪费、系统性能损耗严重等挑战发布了一款利用TSMC 65nm工艺流片的存内计算神经网络处理器芯片。该芯片的关键技术包括:组相联分块结构化稀疏跳零架构,将神经网络模型的权重训练为分组分块的结构化稀疏形式,并编译组织为非零数据和索引值,芯片依据索引值动态决定计算位置,自动跳过零值数据对应的计算,实现同时节省功耗、存储空间并加速计算;乒乓存内计算电路结构采用两组存储单元共用一组存内计算电路的方式,在一组存储单元用于计算的同时,另一组存储单元用于权重更新及下一次计算任务的执行,从而隐藏更新权重所需的额外时间,提升系统效率。此外,处理器的高能效存内计算核心不仅实现了乒乓电路结构,而且可以利用数字电路预测器判断输出结果所需的ADC精度,动态调整ADC采样精度模式而降低功耗。该芯片实现了对于Cifar-10和ImageNet数据集上多种网络模型的支持,及最高370TOPS/W的核心峰值能效和最高75.9TOPS/W的系统峰值能效,较当前国际领先的存内计算系统芯片能效提升了6.35倍。

图片

存内计算神经网络处理器芯片及硬件指标


利用位级稀疏和量化优化的张量链存内计算芯片
魏少军尹首一教授等发表题为“A 5.99-to-691.1TOPS/W Tensor-Train In-Memory-Computing Processor Using Bit-Level-Sparsity- Based Optimization and Variable-Precision Quantization”的论文。针对当前神经网络模型通常超过片上存储容量而引入的片外访存所导致CIM 处理器重现“存储墙”瓶颈这一现象,研究团队采用“计算换存储”思想,应用张量链分解算法(tensor-train, TT)将三维卷积核分解成若干个规整的四维TT核,从而将模型全部压缩、存储在CIM宏阵列中。该工作将四维TT核高效地映射入二维CIM架构,通过优化计算数据流来调度CIM的高计算并行度、减少计算过程的乘法操作;将TT核的元素进行1、2补码混合编码而增加其位级稀疏度,对应地设计了位级稀疏优化的CIM宏单元来降低其模拟计算功耗;将激励数据量化为4/8-bit两种表达,从而缩减CIM单元对多比特激励的位串行计算周期,对应地设计了基于查找表的量化单元取代高位宽乘法器来降低量化操作功耗。芯片在TSMC 28nm工艺上成功流片,通过将完整的神经网络固定在CIM宏阵列而避免了片外、片上的权重访存,显著地提升了能效。

图片

TT@CIM芯片硬件指标



图片

High-Performance VCOs

图片


高性能CMOS基频振荡器

王志华池保勇教授等发表题为”A 60GHz 186.5dBc/Hz FoM Quad-Core Fundamental VCO Using Circular Triple-Coupled Transformer with No Mode Ambiguity in 65nm CMOS“的论文。针对当前基频振荡器相位噪声性能受限于工艺晶体管的有限增益片上电感的插入损耗,难以满足5G毫米波通信中高阶数字调制需求的挑战,研究团队深入分析了高频片上电感品质因子降低机理,针对性地提出环状的电感结构,消除了小尺寸电感内径负耦合,大大提高了电感的品质因子。同时,采用三线圈变压器将4个振荡器核耦合在一起,使相位噪声得到额外6dB的降低。团队发布的振荡器采用65nmCMOS工艺设计和制造,振荡在60GHz,在1MHz频偏处的相位噪声为-104.7dBc/Hz,是目前文献中工作在类似频段的相位噪声性能最好的CMOS基频振荡器,由于其设计简洁、面积小、性能优异,该振荡器结构有望在5G毫米波通信中得到广泛应用。


图片

振荡器的芯片照片及与世界先进水平的性能对比



图片

Discrete-Time ADCs

图片


四阶噪声整形SAR ADC芯片

孙楠教授等发表题为”A 250kHz-BW 93dB-SNDR 4th-Order Noise-Shaping SAR Using Capacitor Stacking and Dynamic Buffering “的论文。研究团队提出了一种全新的离散时间积分器技术,通过电容叠加和动态缓冲实现积分,有效地避免了无源积分导致的信号衰减问题,并且不需要运算放大器等电路。与现有的几种积分器相比,该技术具有PVT鲁棒性高、信号损耗小、电路实现简单、高阶扩展性好等优点。基于该积分器实现的一款四阶噪声整形SAR ADC芯片,在250kHz带宽内达到了93dB的SNDR,功耗为340uW,能效品质因数为182dB。该芯片是目前首款实现90dB以上精度和100kHz以上带宽的噪声整形SAR ADC芯片。


图片

ADC芯片架构图(上)、照片(左下)及测试频谱(右下)






   ISSCC 国际固态电路会议

ISSCC(International Solid-State Circuits Conference 国际固态电路会议)始于1953年,是集成电路设计领域最高级别的学术会议,素有“集成电路领域的奥林匹克”之称,通常是各个时期国际上最尖端固态电路技术最先发表之地。由于ISSCC在国际学术、产业界受到极大关注,每年吸引超过3000名来自世界各地工业界和学术界的参加者参会。


供稿 | 莫汇宇、王燕、岳金山、郭瑞琦贾海昆、刘佳欣
编辑 | 王玲
审核 | 钟潇


图片

长按下方二维码,关注官方微信。

图片

未来芯片高精尖中心

微信号:THU-ICFC

图片
图片