ICT

问题:不同的一致性正则化技术选择不同的未标记数据扰动。随机扰动是一个简单的方案,但其对于高维度数据十分低效。VAT等模型探索能够使模型预测变化最大化的扰动,但这类方法需要额外的计算,而且有研究表明对抗性扰动训练可能会影响泛化表现。

解决方案:提出Interpolation Consistency Training(ICT),使用监督学习中的数据增强技术Mixup作为扰动,学习一个学生网络f(θ),再利用学生网络的移动平均构建教师网络f(θ’)。学习网络参数的更新依靠有标签数据的正确预测以及无标签数据的一致性预测。其中Mix函数的公式为:

Verma V, Lamb A, Kannala J, et al. Interpolation consistency training for semi-supervised learning[J]. arXiv preprint arXiv:1903.03825, 2019.

MixMatch

MixMatch为未标记数据引入了统一的损失项,可以降低熵,同时保持一致性并与传统的正则化技术保持兼容。MixMatch主要结合了之前单独使用的三种半监督学习范例:

论文分析MixMatch各个部分后得出,贡献最大的是对未标记数据的 MixUp,移动平均以及 Sharpen。

超强半监督学习 MixMatch

Berthelot D, Carlini N, Goodfellow I, et al. Mixmatch: A holistic approach to semi-supervised learning[J]. arXiv preprint arXiv:1905.02249, 2019.

UDA

Unsupervised Data Augmentation(UDA)引入了智能增广技术(AutoAugment),对无标注数据进行数据增强,显著提高半监督学习的性能。AutoAugment是一种基于强化学习搜索的数据增强方法,对于不同的任务,自动搜索合适数据增强策略,最小化训练过程中的验证误差。

此外,论文还提出了Training Signal Annealing(TSA),防止对标记数据的过拟合。在训练时忽略预测置信度过高的样本。这一点和MixMatch论文中对标记数据做k次增广的目的一致。

超强半监督学习MixMatch姐妹篇 Unsupervised Data Augmentation

Xie Q, Dai Z, Hovy E, et al. Unsupervised data augmentation[J]. arXiv preprint arXiv:1904.12848, 2019.

总结

对于本博客之前提及的使用一致性技术的模型的比较:

Π-model(2016):使用不同Dropout和一般数据增强方法的一致性。

Mean Teacher(2017):学生模型和教师模型(学生模型的移动平均)的一致性。

ICT(2019):数据增强(MixUp)+移动平均的一致性。

MixMatch(2019):数据增强(MixUp,与ICT的使用方法并不相同)+ Sharpen+移动平均。

UDA(2019):数据增强(AutoAugment)。