一种基于改进的SMOTE算法的不平衡数据处理方法,涉及机器学习技术领域,针对现有不平衡数据集处理方法中由于不能够避免处理过程中产生噪声数据样本,并且可能使新生成的数据样本分布在原数据集中的少数数据样本的中心,进而导致分类效果差的问题.本发明使用支持向量机和Kmeans算法的结合去除数据集中的噪声数据,通过限制样本生成...
在处理非平衡大数据集中,提出一种基于优化SMOTE方案的分类算法研究,在临近样本插值分类中引入分簇聚类的理念,具体分为安全样本,危险样本和干扰样本,并重点对安全样本做插值处理.对插值后的数据样本做区间化处理,能够改善插值后数据过于集中的状况,提高样本分布的均匀度.算法性能验证结果表明,分类算法的规模成长性更好,具...