Titanic大概是kaggle上最受欢迎的项目了,有7000多支队伍参加,多年来诞生了无数关于该比赛的经验分享。正是由于前人们的无私奉献,我才能无痛完成本篇。 事实上kaggle上的很多kernel都聚焦于某个特定的层面(比如提取某个不为人知的特征、使用超复杂的算法、专做EDA画图之类的),当然因为这些作者本身大都是大神级别的,...
附之网格搜索调参,建立Knn、Adaboost、GBDT、RandomForest等分类器进行准确率测算/对比,输出最优模型; 由于本项目中,Kaggle评估标准为accuracy;即,得分越高,准确率越高;得分为1.0,准确率100%,说明该模型预测结果与实际结果全部相符; 最终择选到的模型,在Kaggle上得分为0.78468; 即,对Titanic生存率测算准确率,达约80...
完整代码见kaggle kernel或GitHub 比赛页面:https://www.kaggle.com/c/titanic Titanic大概是kaggle上最受欢迎的项目了,有7000多支队伍参加,多年来诞生了无数关于该比赛的经验分享。正是由于前人们的无私奉献,我才能无痛完成本篇。 事实上kaggle上的很多kernel都聚焦于某个特定的层面(比如提取某个不为人知的特征、...
Kaggle入门Titanic——特征工程 1,介绍 Titanic: Machine Learning from Disaster是kaggle比赛的入门训练,具体介绍可以看链接,数据在官网上下载,但需要注册登录。训练集在train.csv中,测试集在test.csv。这里对特征的处理主要是来自Sina的Titanic best working Classifier。 首先对训练集的信息进行了解,从中可以看出训练集...
Kaggle Titanic 生存预测比赛超完整笔记(上) 一直想在Kaggle上参加一次比赛,奈何被各种事情所拖累。为了熟悉一下比赛的流程和对数据建模有个较为直观的认识,断断续续用一段时间做了Kaggle上的入门比赛:Titanic: Machine Learning from Disaster。 总的来说收获还算是挺大的吧。本来想的是只简单的做一下,在整个进行...
https://www.kaggle.com/c/titanic/data 树根这里先剧透一下我们接下来要做什么。 1.第一步我们先要对数据进行可视化,进行简单的数据探索; 2.然后对数据进行清洗,比如对缺失值进行填补、进行特征二值化,编制哑变量等等。值得一提的是,这里由于年龄缺失值较多,树根对年龄的缺失值采用随机森林模型预测填补的方法; ...
#kaggle Titanic#导入需要的库importpandas as pdimportnumpy as npimportsysimportsklearnimportrandomimporttimefromsklearnimportensemblefromsklearn.preprocessingimportLabelEncoderfromsklearnimportfeature_selectionfromsklearnimportmodel_selectionfromsklearnimportmetricsimportmatplotlib as mplimportmatplotlib.pyplot as pltim...
本文详细介绍了在Kaggle的Titanic比赛中,通过特征筛选、模型融合和超参数调试等方法,提升模型预测精度的过程。文章结合多种机器学习算法,采用Stacking框架进行模型融合,并通过学习曲线分析和超参数调试优化模型表现。
# This Python 3 environment comes with many helpful analytics libraries installed # It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python # For example, here's several helpful packages to load import numpy as np # linear algebra import pandas as pd # data...
一、数据集获取登陆kaggle账号( 注册流程),点击compete-All Competitions-选择all categories中的get started-在选择inclass,找到titanic案例。 二、数据集介绍(一)下载数据集内容 有三个文件:train.csv,te…