我们将Kaggle泰坦尼克号项目的train.csv作为原始数据集,记作source。并将其分为训练数据集(记为train,用于模型训练)和测试数据集(记为test,用于模型评估)。 #通过之前的查看,知道原始数据的行数为891 source_Row = train.shape[0] #原始数据集:特征 source_X = full_X.loc[0:source_Row-1,:] #原始数据集...
# 通过马赛克图(mosaic plot)查看家庭规模与生存情况之间关系 mosaicplot(table(full$FsizeD,full$Survived), main='Family Size by Survival', shade=TRUE) 从图中可以看出,单个人和人数较多大家庭遇难情况更严重,人数不太多的小家庭存活率更高。 2.7 建立一个客舱层数变量 通过观察客舱号(Cabin),可以发现该变量...
Naive Bayes classifier :GaussianNB()#朴素贝叶斯 训练完毕后,对测试集进行预测并上传到Kaggle上进行检验,逻辑回归的准确率为76.076%,介于v0.1与v0.2之间。 而使用效果最好的决策树和随机森林模型,准确率都可以达到78.468%,比v0.2提高了0.96%,是目前最高的准确率。 虽然只是"照猫画虎"的比划了一下,但完成这个项...
Titanic-Survival-Prediction:基于乘客是否会幸存的泰坦尼克号数据集,会创建一个预测。 这是Kaggle上传奇性的Titanic ML竞赛 泰坦尼克号生存预测 泰坦尼克号的沉没是历史上最臭名昭著的海难之一。 1912年4月15日,在她的处女航中,被广泛认为的“沉没” RMS泰坦尼克号与冰山相撞后沉没。 不幸的是,船上没有足够的救生艇...
Family_Survival 此处逻辑是: 一个人的家庭存活率为0.5 再将Family_Name和Fare进行组合,认为同一姓氏且有着同一票价的人们组成一个家庭,对于一个家庭(大于1人)而言,设如果有人存活则家庭存活率为1,否则为0 再将Family_Name和Ticket进行组合,认为同一姓氏且有着共享一张票的人们组成一个家庭,对于一个家庭(大于1人...
mosaicplot(table(full$child,full$Survived),main = 'The Survival by Age',shade = T) child的生存率比成人的更高,那是不是说明了小女孩的存活率会更高呢? 4.5分析票价对生存率的影响 最后一个是分析票价对生存率是否有影响的分析。为了便于分析,对票价进行了归类: ...
The test set does not provide passengers survival status. We are going to use our model to predict passenger survival status. Now let's go through the features and describe a little. There is a couple of different type of variables, They are... Categorical: Nominal(variables that have two...
Titanic Survival prediction: Titanic dataset- how many people survive and how many were Male and Female pythonjupyter-notebookpredictiontitanic-kaggletitanic-survivaltitanic-survival-predictiontitanic-survival-explorationtitanic-datasettitanic-data-analyticstitanic-machine-learning ...
mosaicplot(table(full$Sex,full$Survived),main = 'Survival By Sex',shade = T) 4.3女性中是母亲的女性与非母亲的女性,获救概率的影响 #新增一个母亲的数据: #母亲:femal,age>18,Parch>1 full$mother<-'Not mother' full$mother[full$Sex == 'female'& full$Age>18&full$Parch>0&full$Title!='Miss...
mosaicplot(table(full$FsizeD, full$Survived), main='Family Size by Survival', shade=TRUE) 三、缺失值 完整的缺失值处理方法通常包含以下几个步骤: (1) 识别缺失数据; (2) 检查导致数据缺失的原因; (3) 删除包含缺失值的实例或用合理的数值代替(插补)缺失值 ...