本发明涉及一种基于密度及复杂度的不平衡数据集采样方法,属于数据分类技术领域.本发明首先对少数类样本的分布情况进行量化,并将其定义为样本的复杂度.通过密度峰值聚类算法对少数类样本进行聚类,根据每个子簇的密度和分布情况确定子簇的采样倍率,并以簇内样本的复杂度为指导选出基准样本和辅助样本,最后在基准样本和...
4.本发明的技术方案是:一种基于密度及复杂度的不平衡数据集采样方法,先对样本的分布情况进行了量化,并将其定义为样本的复杂度,然后对数据集中的少数类样本进行聚类,紧接着针对聚类后每个少数类子簇内样本的数量情况和样本分布情况确定出对应子簇中少数类样本的采样倍率,分别在各子簇中以样本的复杂度占比为概率选...