采集数据:数据来源于Kaggle泰坦尼克号项目 Titanic: Machine Learning from Disasterwww.kaggle.com 导入数据:用python导入数据集 数据字段的理解: 描述统计信息:从整体上了解这个数据集(只能查看数值类型的信息,对于其他类型不显示) 我们发现: 年龄这一列的数据数比其他列少,说明这一列存在缺失数据,需要待会进行预处理;...
(1)在泰坦尼克号上,女性的获救率会高于男性; (2)高等级船舱的乘客获救率会高于低等级船舱。 除此之外,也可以从年龄等其他角度进行分析,这里由于篇幅问题我们就不再续写了,感兴趣的小伙伴可以自己动手试试。 在本篇中,我们使用了常用的数据挖掘手段对乘客的获救率进行预测;下一篇中,我们将会使用回归树的方法,同样...
1,数据源:https://www.kaggle.com/c/titanic 2,用到的库: Numpy-科学计算库 主要用来做矩阵运算,什么?你不知道哪里会用到矩阵,那么这样想吧,咱们的数据就是行(样本)和列(特征)组成的,那么数据本身不就是一个矩阵嘛。 Pandas-数据分析处理库 很多小伙伴都在说用python处理数据很容易,那么容易在哪呢?其实有...
1、kaggle入门–泰坦尼克号之灾(某书)2、机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾3、缺失值填充的几种方法4、关于Kaggle 数据挖掘比赛(某乎)5、Kaggle官网6、数据分析的小提琴图应该怎么看(某乎)7、随机森林 n_estimators参数 max_features参数8、关于pandas中crosstab的用法(某乎) 文章目录 一、数据的...
1、数据预处理 1.1 重复值处理 titanic_data.duplicated().sum() 可以看出,数据比较好,没有缺失值 1.2 从经验看来(这步其实在实际中是跟业务强相关),cabin、name、ticket、passengerId这些特征,与最终是否获救是没有直接关系的,因此可以把这四列删除
本案例所用泰坦尼克号数据存储在文件 train.csv 中,来源于kaggle竞赛 三、Python代码实现 1.数据读取 2.数据探索 3.数据清洗和预处理 3.1 提取性别身份,并将少数类归为其他 3.2 缺失值填充 3.2.1 填补Age缺失值 3.2.2 填充港口数据 3.3数据处理 3.3.1 年龄分段 ...
Kaggle上面有一个经典的入门题目,泰坦尼克号乘客的生存预测。此文针对这个题目,演示数据挖掘的一些基本方法。 题目描述 灾难发生的时候,由于救生艇有限,所以2224位乘客中只有722位获救。虽然有运气成分,但是某些群体的人获救的概率更大,比如女士,小孩等。题目要求研究哪类人群更容易获救,并且对乘客是否获救做出预测。
数据挖掘经典项目-泰坦尼克号乘客生存率预测(获救预测) 计算机博士手把手带你做 泰坦尼克号乘客生存率预测(获救预测)
matlab数据挖掘泰坦尼克号实验体会 数据挖掘是一种从大量数据中挖掘出有用信息和洞察的技术。在这个实验中,我们使用了Matlab工具进行数据挖掘,并以泰坦尼克号数据集作为实验对象。通过这个实验,我收获了许多关于数据挖掘的知识和经验,以下是我的体会和心得。 首先,准备工作是非常重要的。在开始实验之前,我们需要了解数据集...
【原创】定制代写开发r/python/spss/matlab/WEKA/sas/sql/C++/stata/eviews数据挖掘和统计分析可视化调研报告程序等服务(附代码数据),咨询:3025393450@qq 有问题到淘宝找“大数据部落”就可以了实验目的和要求: 1.1实验目的泰坦尼克号事故相信大家都知道,就是那个大家都熟悉的“JackandRose”的故事,豪华游艇沉没了,...