尽管如此,我们真的认为所有数据科学家都可以从机器学习竞赛中快速学习,并为我们的社区做出有意义的贡献。为了让你清楚地了解我们的平台是如何工作的,以及你可以在Kaggle上进行的学习类型的心理模型,我们为泰坦尼克比赛创建了一个入门教程。它将引导你完成让你的第一份像样的作品出现在排行榜上所需的初始步骤。在本教程...
kaggle题目说明 泰坦尼克号的沉没是历史上最臭名昭著的沉船事故之一。 1912 年 4 月 15 日,在她的处女航中,被广泛认为“不沉”的泰坦尼克号与冰山相撞后沉没。不幸的是,船上没有足够的救生艇,导致 2224 名乘客和机组人员中有 1502 人死亡。 虽然生存有一定的运气成分,但似乎某些群体比其他群体更有可能生存。
Sex属性,如果是female会极大提高最后获救的概率,而male会很大程度拉低这个概率。 Pclass属性,1等舱乘客最后获救的概率会上升,而乘客等级为3会极大地拉低这个概率。 有Cabin值会很大程度拉升最后获救概率(这里似乎能看到了一点端倪,事实上从最上面的有无Cabin记录的Survived分布图上看出,即使有Cabin记录的乘客也有一部...
摘要 本文主要是笔者第一次接触kaggle入门竞赛的一次记录,整个过程是通过jupyter notebook实现的。第一次接触这类比赛,过程中参考了很多大佬的文章学习,在此尽自己所能记录一下学习过程与总结,有什么理解错误的地方望大家指出,感谢! 可能需要的参考链接: jupyter notebook的搭建 10分钟python seaborn绘图入门 (Ⅱ): b...
本篇将注重于机器学习预测模型的过程、数据分析以及项目实战落地。对于各种所使用的算法直接调用sklearn包,在这里不会说算法的原理和过程。有想看原理和过程的可以看我这两天整理的学习笔记。 KNN K邻近 学习笔记 各种聚类 学习笔记 决策树与随机森林 学习笔记 ...
探索性分析,机器学习模型 成果输出:csv文件上传得到正确率和排名 载入库 import numpy as np import matplotlib.pyplot as plt import pandas as pd [/code] # 数据获取 ```code train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') ...
(一)步骤流程: 学习数据挖掘(分析)的步骤差不多就这些,这是对于第二次练习数据挖掘项目的体会,难道不就是这些吗,当然除了加上你的思维判断。 (二)数据准备 (1)下载数据源...
泰坦尼克号的故事,作为历史上最著名的海难之一,不仅令人揪心,更激发了对数据科学深刻理解的追求。在本文中,我们将跟随Kaggle的步伐,从原始数据到预测模型,一步步揭开幸存率背后的统计秘密。我们不仅会探索基本的数据清洗和特征工程,还会深入了解如何选择和调整算法来提高预测的准确性。 这不仅是一篇文章,它是一次探险——...
(咳咳,敲黑板~科普一下,在机器学习中,根据目标变量(因变量)是否是连续值可以分为回归和分类两种模型)本次就进行一个简单的二分类模型介绍——泰坦尼克号乘客生存预测。 首先还是先导入接下来要用到的Python包 然后导入数据集,因为本次用到的数据集我已预保存到本地电脑,直接读取数据进来即可(数据集下载链接https:...
此文为本人第一次完成kaggle项目的实践笔记,适合小白入门阅读,同时欢迎大神指点。 本文共6个章节,总计大约7000字,预计读完需要15分钟。 阅读本文需要python和机器学习的基础知识。 对于python基础知识,可以参照我下面的文章进行学习 大眼哥:数据分析之python核心知识梳理——修订版8 赞同 · 0 评论文章 机器学习涉及的...