不使用标签数据! 自动搜索Transformer混合结构,同速度超过EfficientNet 2.1%!

让创新获得认可 将门创投 今天

来自蒙纳士大学、中山大学和暗物智能研究院等研究机构的研究人员提出了一种分块自监督神经网络结构搜索方法 (Block-wisely Self-supervised Neural Architecture SearchBossNAS)来探索CNN-Transformer混合网络 (Hybrid CNN-transformers)。

BossNAS成功解决了以往神经网络结构搜索 (NAS) 算法中庞大权重共享空间造成的评价不准问题以及有监督分块NAS中结构偏见的问题,在所提出的HyTra搜索空间中,它自动搜索出的CNN-Transformer混合网络,在ImageNet达到了82.2%的精度,在相同计算时间 (compute time) 下,超越了ViT,DeiT,BoTNet,T2T,TnT等人工设计的Transformer和混合Transformer,同时以2.1%的优势超越了自动搜索的网络EfficientNet。


图片

论文链接:

https://arxiv.org/abs/2103.12424

代码:

https://github.com/changlin31/BossNAS


图片

一、分块自监督NAS方法

1. NAS的困境以及分块解决方法

图片

虽然经典的基于采样重训练的NAS方法可以准确的评价网络结构,但它们的搜索成本非常高昂。One-shot NAS方法中的权重共享极大地降低了搜索成本,但网络结构评价精度较低 (上图 a) 。

分块NAS (block-wise NAS) 方法在One-shot NAS方法的基础上,将搜索空间在深度上分块,成功的降低了权重共享导致的结构评价偏差。但分块NAS方法引入教师结构作为中间层监督,不可避免的产生了结构偏好,导致其在使用不同教师结构或应用于多样搜索空间时会产生不公平的候选网络结构评价 (上图b) 。为解决上述问题,本文舍弃教师结构,提出一种无监督NAS方法,BossNAS (上图 c) 。

2. 循环集成自监督 (ensemble bootstrapping) 训练

图片

首先,作者提出以超网络 (supernet) 本身替换原本的分块NAS方法中的教师网络,由此构造出孪生超网络 (Siamese supernets) 。之前的双生网络训练使用对比学习以及bootstrapping方法。

本文中,作者为保证权重共享supernet中各路径的训练公平性和一致性,提出一种ensemble bootstrapping训练方法,通过生成共同的目标来优化孪生超网络中权重共享的各个路径:

1. 取一个训练样本,并产生此样本多个不同的随机数据增强视角 (augmented  view);

2. 训练时,在线超网络 (Online supernet) 中每一条采样路径都通过此训练样本的一个视角来预测教师超网络中此训练样本的其他视角经过多条采样路径的概率集成 (probability ensemble) (见上图) ;

3. 使用在线超网络权重当前的滑动平均 (EMA) 值作为孪生超网络中教师超网络的权重;
迭代1,2,3步骤,以ensemble bootstrapping不断更新孪生超网络,完成训练。整个训练过程不使用标签数据。
在消融实验中,作者证明此无监督训练方法优于单纯的bootstrapping以及有监督的标签训练和蒸馏训练

3. 以种群中心为目标的无监督评价和搜索

之前的自监督训练方法使用有监督方法来评价 (evaluate) 训练的模型,如linear evaluation、few-shot classification等。而构建无监督NAS方法需要避免使用这种依赖标签的有监督评价指标本文的训练过程中使用的损失函数不能作为公平的评价指标,由于其中数据增强视角 (augmented view) 以及作为目标的采样路径都具有随机性。
为此,作者提出一种公平且有效的无监督评价指标用于结构搜索。首先,每个样本都产生一对固定的数据增强视角 (augmented view) 用于评价。其次,以进化算法为例,种群中所有的结构都做为目标结构来产生不具有随机性的概率集成 (probability ensemble) 作为评价的目标。在实际使用时,由于分块,每一块的总搜索空间大小适中,使得遍历评价的成本可以承受,种群可扩展为一个分块的整个搜索空间,使得搜索过程可在一代进化中完成。
在消融实验中,作者证明此无监督评价方法优于有监督的linear evaluation。
图片
与行业领先企业创新官探讨应用场景的机会来咯
点击上图了解详情,4月5日截止报名,赶快上车啦!

二、CNN-Transformer混合搜索空间

图片

作者提出了一个纺织状 (fabric-like) 的CNN-Transformer混合搜索空间,HyTra。

1. 候选算子 (building blocks) 

首先,作者采用ResNet中的residual bottleneck 为卷积候选building block,ResConv。其次,作者为了降低transformer候选building block,ResAtt的计算复杂度,使用一种类似CPVT中隐式位置编码的模块来替换BoTNet building block中的相对位置编码分支。隐式位置编码模块也被加到ResConv中,同时负责下采样,使得纺织状空间中不同尺度的输入得以权重共享 (见上图右侧) 。

2. 纺织状 (Fabric-like) 空间

除基础模块外,CNN和Transformer在宏观网络结构上也有很大不同,CNN一般使用不同尺度的多个阶段来处理图片数据,而典型的Transformer自始至终不改变数据的空间维度大小(序列长度)。为涵盖CNN和Transformer,作者提出了纺织状宏观结构的搜索空间,具有灵活、可搜索的下采样位置(见上图左侧)。此搜索空间涵盖了类似于ResNet,BoTNet,ViT,DeiT,T2T-ViT等模型的候选结构。

三、实验

1. HyTra搜索空间
图片

在作者提出的HyTra搜索空间中,BossNAS搜索出的BossNet-T模型在ImageNet达到了最高82.2%的精度,在相近的计算时间 (compute steptime) 下,优于现有的手工设计或自动搜索的模型,如SENet,EfficientNet,DeiT,BoTNet,T2T-ViT等等;同时优于搜索空间中的其他手动或随机选择的模型 (以深蓝色标出) ;也优于其他NAS(DNA,UnNAS) 在此搜索空间中搜出的模型。

2. MBConv搜索空间和NATS-Bench size搜索空间

图片

MBConv搜索空间中,搜索出的模型BossNet-M,超越了其他NAS方法搜索的模型 (Table2) 。在模型排序相关性指标上,BossNAS达到了0.78 Spearman rho,超过了包括MnasNet和DNA的其他NAS方法 (Table 3和右上图) 。

NATS-Bench size搜索空间和CIFAR数据集上,搜索出的模型超越了FBNetv2,TuNAS,CE等NAS方法 (Table 4) 。在模型排序相关性指标上,BossNAS达到了 0.76 Spearman rho,超过了predictorbased NAS方法CE (Table 4和Figure 8) 。

3. 收敛表现

图片

最后,作者还展示了自监督训练过程中模型评分的相关性变化,如上图,BossNAS的评分的相关性在多个搜索空间和数据集都随训练过程逐渐上升并趋于稳定(左:NATS-Benchsize搜索空间和CIFAR数据集,右:MBConv搜索空间和ImageNet数据集)。

消融实验和更多细节请参照文章。

Illustrastion by Oleg Shcherba from Icons8

 - The End -


超A计划来袭
与行业领先企业创新官探讨应用场景的机会来咯
点击下图了解详情或扫描二维码报名
4月5日截止报名!赶快上车吧!

图片

图片

扫码观看!

本周上新!

图片


如果你也想成为讲者

 自荐 / 推荐 
图片
单人Talk | 团队专场 | 录播or直播 | 闭门交流
多种方式任你选择!
推荐讲者成功也有奖励哦~

图片

关于我“
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 
bp@thejiangmen.com
图片    
点击右上角,把文章分享到朋友圈