SMOTE的全称是Synthetic Minority Over-Sampling Technique,译为“人工少数类过采样法”。 SMOTE没有直接对少数类进行重采样,而是设计了算法来人工合成一些新的少数类的样本。 为了叙述方便,就假设阳性为少数类,阴性为多数类 合成新少数类的阳性样本的算法如下: 选定一个阳性样本ss 找到ss最近的kk个样本,kk可以取5,1...
SMOTE算法的基本思想就是对少数类别样本进行分析和模拟,并将人工模拟的新样本添加到数据集中,进而使原始数据中的类别不再严重失衡。 SMOTE算法的步骤 采样最邻近算法,计算出每个少数类样本的K个近邻。 从K个近邻中随机挑选N个样本进行随机线性插值。 构造新的少数类样本。 将新样本与原数据合成,产生新的训练集。 SM...