一个典型的机器学习实战算法基本包括 1)数据处理,2)特征选取、优化,和 3)模型选取、验证、优化。 因为“数据和特征决定了机器学习的上限,而模型和算法知识逼近这个上限而已。”所以在解决一个机器学习问题时大部分时间都会花在数据处理和特征优化上。 大家最好在jupyter notebook上一段一段地跑下面的代码,加深理解。
# 导入所需文件importnumpyasnpfromsklearn.model_selectionimportShuffleSplitfromdata_utilsimportENTITIES,Documents,Dataset,SentenceExtractor,make_predictionsfromdata_utilsimportEvaluatorfromgensim.modelsimportWord2Vec # 数据文件读取data_dir="./data/train"ent2idx=dict(zip(ENTITIES,range(1,len(ENTITIES)+1)))...
head() 保存结果 """ 保留数据头,不保存index """ df_out.to_csv('df_out.csv',header=True,index=False) print('save OK!') 以上内容和代码全部来自于《阿里云天池大赛赛题解析(机器学习篇)》这本好书,十分推荐大家去阅读原书! 标签学习, 用户, 重复 ...