这篇综述概述了适用于文本领域的数据增强方法。数据增强有助于实现许多目标,包括正则化、最小化标签工作、降低敏感领域中真实世界数据的使用、平衡不平衡的数据集以及提高对抗对抗性攻击的鲁棒性。在高层次上,数据增强方法分为应用于特征空间和数据空间的方法。然后将这些方法细分为更细粒度的组,从噪声诱导到全新实例的...
然而,由于文本是由长度不固定的离散字符组成的,简单地删除或交换某个单词都可能改变句子的语义,因此数据增强方法在自然语言处理任务上的应用更难实现。 针对自然语言处理领域的文本分类任务,当前主流的数据增强方法通常会从语义替换、噪声增强、样例生成等角度对现有数据进行增强。 图1 针对文本分类任务的数据增强方法示例...
[结果]文本增强方法可以划分为基于文本空间和基于向量空间的增强方法,前者直观可解释,但可能会破坏文本的整体语义;后者能够直接操纵深层的语义特征,但计算复杂度更高.同时,现有的增强方法往往需要启发式规则和任务信息等外部支持;深度学习算法的引入能够提升生成数据的新颖性和多样性. [局限]主要对已有方法的技术细节及...