不使用标签数据! 自动搜索Transformer混合结构，同速度超过EfficientNet 2.1%！

原创让创新获得认可将门创投今天

来自蒙纳士大学、中山大学和暗物智能研究院等研究机构的研究人员提出了一种分块自监督神经网络结构搜索方法 (Block-wisely Self-supervised Neural Architecture Search，BossNAS)来探索CNN-Transformer混合网络 (Hybrid CNN-transformers）。

BossNAS成功解决了以往神经网络结构搜索 (NAS) 算法中庞大权重共享空间造成的评价不准问题以及有监督分块NAS中结构偏见的问题，在所提出的HyTra搜索空间中，它自动搜索出的CNN-Transformer混合网络，在ImageNet达到了82.2%的精度，在相同计算时间 (compute time) 下，超越了ViT，DeiT，BoTNet，T2T，TnT等人工设计的Transformer和混合Transformer，同时以2.1%的优势超越了自动搜索的网络EfficientNet。

论文链接：
https://arxiv.org/abs/2103.12424
代码：
https://github.com/changlin31/BossNAS

一、分块自监督NAS方法

1. NAS的困境以及分块解决方法

虽然经典的基于采样重训练的NAS方法可以准确的评价网络结构，但它们的搜索成本非常高昂。One-shot NAS方法中的权重共享极大地降低了搜索成本，但网络结构评价精度较低 (上图 a) 。

分块NAS (block-wise NAS) 方法在One-shot NAS方法的基础上，将搜索空间在深度上分块，成功的降低了权重共享导致的结构评价偏差。但分块NAS方法引入教师结构作为中间层监督，不可避免的产生了结构偏好，导致其在使用不同教师结构或应用于多样搜索空间时会产生不公平的候选网络结构评价 (上图b) 。为解决上述问题，本文舍弃教师结构，提出一种无监督NAS方法，BossNAS (上图 c) 。

2. 循环集成自监督 (ensemble bootstrapping) 训练

首先，作者提出以超网络 (supernet) 本身替换原本的分块NAS方法中的教师网络，由此构造出孪生超网络 (Siamese supernets) 。之前的双生网络训练使用对比学习以及bootstrapping方法。

本文中，作者为保证权重共享supernet中各路径的训练公平性和一致性，提出一种ensemble bootstrapping训练方法，通过生成共同的目标来优化孪生超网络中权重共享的各个路径：

1. 取一个训练样本，并产生此样本多个不同的随机数据增强视角 (augmented view）；

2. 训练时，在线超网络 (Online supernet) 中每一条采样路径都通过此训练样本的一个视角来预测教师超网络中此训练样本的其他视角经过多条采样路径的概率集成 (probability ensemble) (见上图) ；

3. 使用在线超网络权重当前的滑动平均 (EMA) 值作为孪生超网络中教师超网络的权重；

迭代1，2，3步骤，以ensemble bootstrapping不断更新孪生超网络，完成训练。整个训练过程不使用标签数据。

在消融实验中，作者证明此无监督训练方法优于单纯的bootstrapping以及有监督的标签训练和蒸馏训练。

3. 以种群中心为目标的无监督评价和搜索

之前的自监督训练方法使用有监督方法来评价 (evaluate) 训练的模型，如linear evaluation、few-shot classification等。而构建无监督NAS方法需要避免使用这种依赖标签的有监督评价指标。本文的训练过程中使用的损失函数不能作为公平的评价指标，由于其中数据增强视角 (augmented view) 以及作为目标的采样路径都具有随机性。

为此，作者提出一种公平且有效的无监督评价指标用于结构搜索。首先，每个样本都产生一对固定的数据增强视角 (augmented view) 用于评价。其次，以进化算法为例，种群中所有的结构都做为目标结构来产生不具有随机性的概率集成 (probability ensemble) 作为评价的目标。在实际使用时，由于分块，每一块的总搜索空间大小适中，使得遍历评价的成本可以承受，种群可扩展为一个分块的整个搜索空间，使得搜索过程可在一代进化中完成。

在消融实验中，作者证明此无监督评价方法优于有监督的linear evaluation。

与行业领先企业创新官探讨应用场景的机会来咯

点击上图了解详情，4月5日截止报名，赶快上车啦！

二、CNN-Transformer混合搜索空间

作者提出了一个纺织状 (fabric-like) 的CNN-Transformer混合搜索空间，HyTra。

1. 候选算子 (building blocks)

首先，作者采用ResNet中的residual bottleneck 为卷积候选building block，ResConv。其次，作者为了降低transformer候选building block，ResAtt的计算复杂度，使用一种类似CPVT中隐式位置编码的模块来替换BoTNet building block中的相对位置编码分支。隐式位置编码模块也被加到ResConv中，同时负责下采样，使得纺织状空间中不同尺度的输入得以权重共享 (见上图右侧) 。

2. 纺织状 (Fabric-like) 空间

除基础模块外，CNN和Transformer在宏观网络结构上也有很大不同，CNN一般使用不同尺度的多个阶段来处理图片数据，而典型的Transformer自始至终不改变数据的空间维度大小（序列长度）。为涵盖CNN和Transformer，作者提出了纺织状宏观结构的搜索空间，具有灵活、可搜索的下采样位置（见上图左侧）。此搜索空间涵盖了类似于ResNet，BoTNet，ViT，DeiT，T2T-ViT等模型的候选结构。

三、实验

1. HyTra搜索空间

在作者提出的HyTra搜索空间中，BossNAS搜索出的BossNet-T模型在ImageNet达到了最高82.2%的精度，在相近的计算时间 (compute steptime) 下，优于现有的手工设计或自动搜索的模型，如SENet，EfficientNet，DeiT，BoTNet，T2T-ViT等等；同时优于搜索空间中的其他手动或随机选择的模型 (以深蓝色标出) ；也优于其他NAS方法 (DNA，UnNAS) 在此搜索空间中搜出的模型。

2. MBConv搜索空间和NATS-Bench size搜索空间

在MBConv搜索空间中，搜索出的模型BossNet-M，超越了其他NAS方法搜索的模型 (Table2) 。在模型排序相关性指标上，BossNAS达到了0.78 Spearman rho，超过了包括MnasNet和DNA的其他NAS方法 (Table 3和右上图) 。

在NATS-Bench size搜索空间和CIFAR数据集上，搜索出的模型超越了FBNetv2，TuNAS，CE等NAS方法 (Table 4) 。在模型排序相关性指标上，BossNAS达到了 0.76 Spearman rho，超过了predictorbased NAS方法CE (Table 4和Figure 8) 。

3. 收敛表现