使用K-prototype聚类方法解决实际问题时,分析步骤和前面K-means聚类的相同,第一步是准备数据,可同时依据定量和定类数据进行聚类,定量数据应当进行标准化处理;第二步是确定K值,可专业经验指定或多个K值遍历对比决定;第三步是认识类;第四步是归纳总结和分析类的特征,此处不再赘述。 3. K-prototype聚类实例分析 【例...
k-prototype聚类是一种用于处理同时包含数值型和分类型数据的聚类方法。它是k-means和k-modes聚类的结合,能够处理混合类型的数据集。k-prototype聚类通过定义一个损失函数来度量样本与聚类中心之间的距离,从而将数据点分配到最近的聚类中心。 k-prototype聚类分析的步骤 初始化聚类中心:从数据集中随机选择k个数据点作为...
聚类分析之k-prototype算法解析 K-prototype是处理混合属性聚类的典型算法。继承Kmean算法和Kmode算法的思想。并且加⼊了描述数据簇的原型和混合属性数据之间的相异度计算公式。常规定义:X={X1,X2,X3………Xn}表⽰数据集(含有n个数据),其中数据有m个属性。数据Xi={X11,X12,X13……….X1m} Aj表⽰...
将数据使用算法分成4个类别后可以看到 每个类别之间分布呈不同的簇,交集较少 ,因此可以认为得到的聚类结果较好。 删除相关性变量 删除相关性变量 在进行聚类分析之前,我们需要删除相关性较高的变量。高相关性的变量可能会导致冗余的信息,并且可能会对聚类结果产生负面影响。通过计算变量之间的相关系数,并选择相关系数较...
Antonenko和Velmurugan[3] 通过层次聚类方法 Wards聚类和非层次聚类方法 k-Means聚类,分析在线学习者的行为模式。 Dharma-rajan和Velmurugan[4] 基于 2228 名学生的成绩记录,使用CHAID分类算法从学生以往成绩中挖掘信息并预测学 生的 未来 表现。 Manikandan等人[5] 使用k -Means 聚类方法将具有相同学习能力的学生...
职业院校学生校园消费管理行为分析为新形势下学校数字治理和学生未来职业发展提供决策参考。关键词:数据挖掘;职业院校;学生校园消费;K-prototype聚类一、研究背景当前,职业院校学生管理趋向信息化、数字化转变。世界数字教育大会职业教育数字化转型发...
K-prototype是处理混合属性聚类的典型算法。继承Kmean算法和Kmode算法的思想。并且加入了描述数据簇的原型和混合属性数据之间的相异度计算公式。 常规定义:X={X1,X2,X3………Xn}表示数据集(含有n个数据),其中数据有m个属性。 数据Xi={X11,X12,X13……….X1m} ...
方法论 首先,由于数据集呈现分类变量与数值变量混合的特点,本次数据分析将采用K-prototype算法: K-prototype算法:无需创建哑变量,将分别为分类变量计算汉明距离、为数值型变量计算欧几里得距离然后得出聚类结果。算法运行结束后将使用成本函数评价聚类效果。 其次,数值型变量b、c、d的量纲明显不等,为避免量纲影响距离计算...
方法论 首先,由于数据集呈现分类变量与数值变量混合的特点,本次数据分析将采用K-prototype算法: K-prototype算法:无需创建哑变量,将分别为分类变量计算汉明距离、为数值型变量计算欧几里得距离然后得出聚类结果。算法运行结束后将使用成本函数评价聚类效果。 其次,数值型变量b、c、d的量纲明显不等,为避免量纲影响距离计算...
方法论 首先,由于数据集呈现分类变量与数值变量混合的特点,本次数据分析将采用K-prototype算法: K-prototype算法:无需创建哑变量,将分别为分类变量计算汉明距离、为数值型变量计算欧几里得距离然后得出聚类结果。算法运行结束后将使用成本函数评价聚类效果。 其次,数值型变量b、c、d的量纲明显不等,为避免量纲影响距离计算...