然而,由于文本是由长度不固定的离散字符组成的,简单地删除或交换某个单词都可能改变句子的语义,因此数据增强方法在自然语言处理任务上的应用更难实现。 针对自然语言处理领域的文本分类任务,当前主流的数据增强方法通常会从语义替换、噪声增强、样例生成等角度对现有数据进行增强。 图1 针对文本分类任务的数据增强方法示例...
这篇综述概述了适用于文本领域的数据增强方法。数据增强有助于实现许多目标,包括正则化、最小化标签工作、降低敏感领域中真实世界数据的使用、平衡不平衡的数据集以及提高对抗对抗性攻击的鲁棒性。在高层次上,数据增强方法分为应用于特征空间和数据空间的方法。然后将这些方法细分为更细粒度的组,从噪声诱导到全新实例的...