6)返回前K个点中出现频率最高的类别作为测试数据的预测分类。 3.3 K的取值 k值越大,模型的偏差越大,对噪声数据越不敏感,当k值很大时,可能造成欠拟合; k值越小,模型的方差就会越大,当k值太小,就会造成过拟合。 一般使用交叉验证的方法,针对于不同的K,训练集训练模型,测试集验证K值得合理性,具体需要实验调整参...
首先通过爬虫采集链家网上所有南京二手房的房源数据,并对采集到的数据进行清洗;然后,对清洗后的数据进行可视化分析,探索隐藏在大量数据背后的规律;最后,采用一个聚类算法对所有二手房数据进行聚类分析,并根据聚类分析的结果,将这些房源大致分类,以对所有数据的概括总结。通过上述分析,我们可以了解到目前市面上二手房各项基...