当面临不平衡的数据集,分类算法可能会偏好多数类,导致少数类样本分类效果不佳。为解决这一问题,引入样本权重(sample weight)成为了关键。假设数据集中,正类样本(y=1)数量为300,而负类样本(y=0)数量为700。如果不考虑不平衡,分类结果可能倾向于多数类,忽视少数类的重要性。样本权重通过调整各...
sample weight可以简单理解为duplicate,即把少数类的样本拿出来复制来增加它的数量,但是实际不会这样操作...