这样,每一条记录都被映射到欧式空间,可以用于计算特征之间的距离与相似度等,能够用于各种机器学习算法了。 将上面的8条记录进行独热编码,则[‘male’,’Asia’,’Safari’]对应的独热编码是:[ 1. 0. 0. 0. 1. 0. 0. 1. 0.],程序如下: from sklearn.preprocessing import OneHotEncoder enc = OneHot...
哑变量编码直观的解释就是任意的将一个状态位去除。还是拿上面的例子来说,我们用4个状态位就足够反应上述5个类别的信息,也就是我们仅仅使用前四个状态位 [0,0,0,0] 就可以表达博士了。只是因为对于一个我们研究的样本,他已不是小学生、也不是中学生、也不是大学生、又不是研究生,那么我们就可以默认他是博士...