预训练语言模型:众所周知,BERT等在NLP领域取得了巨大成功,特别是其利用大量无标注数据进行了语言模型预训练。如果我们能够结合标签信息、充分利用这一系列语言模型去做文本增强,也许能够克服深度生成模型在少样本问题上的矛盾。近来许多研究者对Conditional Pre-trained Language Models 做文本增强进行了有益尝试:
我们将其归纳如下:下图给出了上述SSL方法在不同数据集上的性能对比(指标为错误率):我们可以发现借鉴了UDA和ReMixMatch的FixMatch,是目前的SOTA。上述大多数SSL方法都引入了一致性正则,其关键在于如何注入噪声,一个好的模型对于输入扰动的任何细微变化也都应具有鲁棒性。也许我们可以形成一个共识:通过strong增强的预测标签与weak增强的人工标签共同构建一致性损失,能够提高一致性训练性能,充分挖掘未标注数据中潜在的价值,最终增强泛化性能。上述结合图像数据增强的半监督学习方法在CV领域已经取得成功,基本满足本文一开始提出的三个层次评价策略,特别是:在少样本场景下可以比肩充分样本下的监督学习模型性能,而在充分样本场景下,性能仍然继续提升。相关实验可以进一步阅读CV相关论文,接下来我们主要关注其在NLP的表现。 4 UDA:文本增强+半监督学习作为NLPer,我们更关心上述文本增强与半监督学习的结合在文本领域表现如何?我们主要介绍分析Google的UDA[]相关结果。本文在第1部分重点介绍了文本增强技术,文本增强方法通常针对标注数据(有监督数据增强),我们可以看到其在少样本场景通常会取得稳定的性能提升,但相较于充分样本下的监督学习性能,也许是有限的提升("cherry on the cake")。为克服这一限制,UDA通过一致性训练框架(正如2.2节介绍的那样),将有监督的数据增强技术的发展扩展到了有大量未标记数据的半监督学习,尽可能的去利用大量未标记数据,这也正是论文名字——无监督数据增强(Unsupervised Data Augmentation)的由来。UDA在六个文本分类任务上结合当前如日中天的BERT迁移学习框架进行了实验。迁移学习框架分别为:(1)Random:随机初始化的Transformer;(2):BERT_base;(3):BERT_large;(4):BERT_finetune:基于BERT_large在domain数据集上继续进行预训练;如上图所示(指标为错误率),Pre-BERT SOTA为BERT出现之前的相关SOTA模型。我们可以发现:1)在少样本场景下,UDA相较于同等监督学习模型,性能明显提升;2)在少样本场景下,UDA能够逼近充分样本下的监督学习模型性能,特别地,在IMDb上具有20个标注数据的UDA优于在1250倍标注数据上训练的SOTA模型。相较于2分类任务,5分类任务难度更高,未来仍有提升空间。3)UDA兼容了迁移学习框架,进一步domain预训练后,性能更佳。那么,在充分样本场景下,继续使用UDA框架表现如何?从上图可以看出,在更多、更充分的标注数据数量下,融合UDA框架,性能也有一定提升。 5 总结与展望本文针对「如何解决少样本困境?」,从「文本增强」和「半监督学习」两个角度进行了介绍,简单总结如下:
在具体实践中,如何有效地解决少样本问题需要更为全面的考虑,我们可以融合文本增强、半监督学习、迁移学习、主动学习、少样本学习等构建统一的低资源NLP解决方案;如上图所示,笔者尝试给出了信息抽取领域的少样本低资源解决方案;此外,很多弱监督学习方法也被提出,这一类方法更为关键的是如何挑选样本、如何降噪学习等,希望后续有机会与大家交流~参考文献[1] A Visual Survey of Data Augmentation in NLP[2] EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks[3] TinyBERT: Distilling BERT for Natural Language Understanding[4] Unsupervised Data Augmentation for Consistency Training[5] mixup: BEYOND EMPIRICAL RISK MINIMIZATION[6] Augmenting Data with Mixup for Sentence Classification: An Empirical Study[7] Data Augmentation and Robust Embeddings for Sentiment Analysis[8] QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension[9] Data Augmentation Using GANs[10] [一文搞懂NLP中的对抗训练],https://zhuanlan.zhihu.com/p/103593948[11] Controlled Text Generation for Data Augmentation in Intelligent Artificial Agents[12] Contextual augmentation: Data augmentation by words with paradigmatic relations[13] Conditional BERT contextual augmentation[14] Do Not Have Enough Data? Deep Learning to the Rescue! [15] Data Augmentation using Pre-trained Transformer Models [16] Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks[17] Temporal ensembling for semi-supervised learning[18] Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results[19] Virtual Adversarial Training: a Regularization Method for Supervised and Semi-supervised Learning[20] MixMatch: A Holistic Approach to Semi-Supervised Learning[21] ReMixMatch: Semi-Supervised Learning with Distribution Alignment and Augmentation Anchoring[22] FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence [23] RandAugment: Practical automated data augmentation with a reduced search space 招 聘