由于是新手数据(再加上博主也是新手),博主只对Titanic数据进行探索性分析,如果有小伙伴们向学习预测性分析(即数据挖掘),可以移步kaggle了解其他人的代码。 1.首先进入kaggleTitanic dataset | Kaggle下载数据集Tested.csv。 2.打开jupter,开始编写代码 #导入分析需要用到的包importnumpyasnpimportpandasaspdfrommatplotl...
转载自YouTube:https://www.youtube.com/watch?v=VWg-I3aP4nkTitanic不仅是影视界的经典,也是Kaggle数据竞赛届的经典!所谓的数据挖掘或者机器学习实际应用到底是怎么样一个过程?其实这一个经典实例就包含了整个数据分析建模的流程。在Kaggle官网上已经有1w多位数据家对
特别地,要求应用机器学习的工具来预测哪些乘客在这场悲剧中幸存了下来。 Titanic幸存预测是Kaggle上参赛人数最多的竞赛之一。它要求参赛选手通过训练数据集分析出什么类型的人更可能幸存,并预测出测试数据集中的所有乘客是否生还。 实践技能 二元分类 Python和R基础 下面我们就开始吧! 1.加载数据 第一件事是设置工作目...
classTitanicDataset(Dataset):def__init__(self, filepath):xy = pd.read_csv(filepath)# xy.shape()可以得到xy的行列数self.len= xy.shape[0]# 选取相关的数据特征feature = ["Pclass","Sex","SibSp","Parch","Fare"]# np.array()将数据转换成矩阵,方便进行接下来的计算# 要先进行独热表示,然后...
X_sub = data_all.loc[data_sub.index][feature] #提取测试数据特征 y_sub = votingC.predict(X_sub) #使用模型预测数据标签 result = pd.DataFrame({'PassengerId':data_sub.index,'Survived':y_sub}) result.to_csv(r'D:\[DataSet]\1_Titanic\submission.csv', index=False) 1. 2. 3. 4....
titanic.isnull().sum().sort_values(ascending=False)#发现以下字段有缺失值 >>> Cabin 687Age 177Embarked 2full.info() full.isnull().sum().sort_values(ascending=False)#发现以下字段有缺失值 Cabin 1014Age 263Embarked 2Fare 1 总结:所有的数据中一共包括12个变量,其中7个是数值变量,5个是属性变量...
df = sns.load_dataset('titanic') # 删除不重要的列 df.drop(columns =["who","adult_male","deck","embark_town","alive","alone","class"],inplace=True) # 缺失值处理 df = df[df["embarked"].notnull] df["age"].fillna(df["age"].mean,inplace=True) ...
data_test = pd.read_csv('/Users/lujiada/Documents/machine_learning/titanic/data/test.csv',engine = 'python',encoding='UTF-8') data_train[0:10] 1. 2. 3. 4. 5. 6. 7. 8. 数据一共有12列,891行。每列的对应信息如下: PassengerId 乘客编号,每位乘客唯一 ...
Titanic是kaggle的一个入门级比赛,也是目前参赛队伍最多的比赛,有7000多支队伍。 问题背景:大家非常熟悉的【Jack and Rose】 的故事,豪华游轮沉没,大家逃生,逃生的结果有生有死,那么现在就需要我们根据已有的数据来预测这些乘客里面哪些是生哪些是死 一、获取数据 ...
write.csv(solution, file = 'rf_mod_Solution.csv', row.names = F) 5 结论 感谢你阅读我对Kaggle数据集的第一次尝试。我打算在这方面能做得更多,当然了,欢迎大家对这个新手的笔记进行评论和建议。 注:本文由 Excelsior vcvc 翻译自Megan L. Risdal. Exploring the Titanic Dataset...