比如可以转换成0-1编码的数值型,但需要注意的是,对于一些数值型数据却未必就不需要进一步的处理了,比如Pclass特征,从名字我们就可以看出这是标识仓位等级的特征,取值范围为[1, 2, 3],这个特征我们不应该简单地当作一个数值型数据放进分类模型中直接跑,应该把它转变为one-hot编码,标识...
首先我们导入我们的训练数据和测试数据: 数据集包含train.csv和test.csv两个文件,在 Datawhale 公众号回复 数据集,可获取打包链接,也可以直接在kaggle官网上下载。 train_data = pd.read_csv("input/train.csv", index_col=0) test_data = pd.read_csv("input/test.csv", index_col=0) train_data.head(...
比如可以转换成0-1编码的数值型,但需要注意的是,对于一些数值型数据却未必就不需要进一步的处理了,比如Pclass特征,从名字我们就可以看出这是标识仓位等级的特征,取值范围为[1, 2, 3],这个特征我们不应该简单地当作一个数值型数据放进分类模型中直接跑,应该把它转变为one-hot编码,标识...
2. 数据预处理 2.1 拼接数据集 首先我们讲训练集中的Survived特征提取出来,这是我们需要预测的目标函数,这部分也是train_data和test_data的不同点,接着我们可以讲训练集和测试集的数据拼接起来一起进行数据预处理,当然在实际中我们是无从得知测试数据的,但在比赛中为了方便我们可以统一进行处理: y_train = train_...
1.1 数据概述 首先我们导入我们的训练数据和测试数据: 数据集包含train.csv和test.csv两个文件,在Datawhale公众号回复数据集,可获取打包链接,也可以直接在kaggle官网上下载。 train_data = pd.read_csv("input/train.csv", index_col=0)test_data = pd.read_csv("input/test.csv", index_col=0)train_data...