高维不平衡数据的特征(属性)较多,类标号中的类别分布不均匀的数据。 高维数据分类难本质问题: 1.密度估计难问题; 2.维数灾难:特征数增加意味着分类所需的样本数量的增加; 3.Hughes问题:给出了一个广义上的数据测量复杂度,训练样本数量和分类精度三者间的关系即对有限样本而言,存在一个最优的数据复杂度,可使分类...
提出基于蚁狮优化的高维不平衡数据多分类算法,该算法个体解将特征和基分类器权重同时编码,在演化过程中同时进行特征选择和基分类器权重优化,通过Fuch混沌映射初始化种群,提升初始种群的多样性,提出"串联一对多"分解策略,该策略结合"一对多"和"一对后序"两种分解方法,利用所有样本信息,同时降低类别之间的不平衡率,最后...
本公开关于一种高维不平衡缺失数据的分类方法、装置、电子设备及介质,涉及大数据技术领域,该方法通过获取待分类的初始数据集;所述初始数据集存在高维不平衡缺失特性;基于初始数据集中的多个特征,从多个特征中选择目标特征,并将目标特征对应的数据作为初始子集;从预设
摘要:本发明提供了一种高维和类别不平衡时序数据的快速分类方法及系统,属于机器学习时序数据的分类技术领域,分类方法包括:采用滑动窗获取待分类样本的固定时间序列特征,将其与待分类样本的固有属性特征组合为数据特征;采用数据特征与类别之间的互信息对数据特征进行筛选,获取互信息最大的预设数目个数据特征作为特征子集,将...
本发明属于数据分类技术领域,具体涉及一种不平衡样本分类方法。 背景技术: 在数据挖掘的分类任务中,目前针对高维不平衡数据的分类方法都是先解决高维问题或者不平衡问题,再解决另外一个问题,并没有考虑高维特性对不平衡数据分类带来的新问题和不平衡特性对高维数据分类造成的影响。不平衡数据的分类任务主要从两个层面进行...
高维不平衡数据的特征(属性)较多,类标号中的类别分布不均匀的数据。 高维数据分类难本质问题: 1.密度估计难问题; 2.维数灾难:特征数增加意味着分类所需的样本数量的增加; 3.Hughes问题:给出了一个广义上的数据测量复杂度,训练样本数量和分类精度三者间的关系即对有限样本而言,存在一个最优的数据复杂度,可使分类...