set.seed(415) fit <- cforest(as.factor(Survived) ~Pclass + Sex + Age + Fare + Embarked + Title + FamilySize + TicketCount +FamilyID,data = train,controls=cforest_unbiased(ntree=2000, mtry=3)) # 预测并将预测结果保存为“forcast.csv” Prediction <- predict(fit, test, OOB=TRUE, type...
sns.distplot(train_data[train_data.Pclass==1].dropna().Age, hist=False, color='k', label='P1') sns.distplot(train_data[train_data.Pclass==2].dropna().Age, hist=False, color='b', label='p2') sns.distplot(train_data[train_data.Pclass==3].dropna().Age, hist=False, color='g...
比赛页面:https://www.kaggle.com/c/titanic 2.png Titanic大概是kaggle上最受欢迎的项目了,有7000多支队伍参加,多年来诞生了无数关于该比赛的经验分享。正是由于前人们的无私奉献,我才能无痛完成本篇。 事实上kaggle上的很多kernel都聚焦于某个特定的层面(比如提取某个不为人知的特征、使用超复杂的算法、专做E...
importmatplotlibimportmatplotlib.pyplot as pltimportnumpy as npimportpandas as pdfrompylabimport*plt.rcParams['font.sans-serif'] = ['SimHei']#用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False#用来正常显示负号data_train = pd.read_csv("E:/titanic/train.csv")#查看各乘客等级的获救...
data_train, rfr=set_missing_ages(data_train) data_train= set_Cabin_type(data_train) 利用独热编码,将以下数据划分成更多列,值为0或1,再将原先不需要的数据删掉 dummies_Cabin = pd.get_dummies(data_train['Cabin'], prefix='Cabin') dummies_Embarked= pd.get_dummies(data_train['Embarked'], pref...
train_data =df.copy() train_data['CabinLetter'] = train_data['Cabin'].map(lambda x: re.compile("([a-zA-Z]+)").search(x).group()) train_data['CabinLetter'] = pd.factorize(train_data['CabinLetter'])[0] 将数据减去平均值 ...
Titanic competition w/ TensorFlow Decision Forests (kaggle.com) Titanic Data Science Solutions (kaggle.com)(推荐这个,讲的很多,看一下数据处理就行) 以上是kaggle官网相关竞赛的两个notebook,有兴趣的同学也可以去看看。 切记!numpy,pandas,matplotlib的官网文档大家自己保存着。平时多看,在这里也要随时查阅到的...
ax.set_title('train feature corr', fontsize=20) Data Processing:缺失值填充,归一化处理,编码方式。 缺失值填充 缺失值我们怎么处理呢?最简单的方法,有缺失值的样本我们就扔掉,这种做法比较适合在样本数量很多,缺失值样本舍弃也可以接受的情况下,这样虽然信息用的不充分,但也不会引入额外的误差。然后,假装走心...
os.chdir('G:/python/data/titanic') #导入数据集 train = pd.read_csv('train.csv') train.head() #数据信息概况 train.info() #缺失值 train.isnull().mean()[['Cabin','Age','Embarked']].plot.barh() plt.xlabel('%Missing') plt.title('Missing pct') ...
登录Kaggle,点击Compete---Data---Download All,下载好数据。 注: train表示训练数据, test表示测试数据,提交给gaggle的结果案例(即最终根据训练数据训练出的模型,预测是测试数据中的生存率,并把结果提交给kaggle)。 2 导入数据 这里用Pandas的read_csv函数导入,并选择相对路径(导入的文件和py文件不在同一文件夹的...