Output Data sub_rf_v1.csv(2.83 MB) get_app chevron_right ID item_cnt_month 0 0.3 1 0.0 2 1.1 3 0.6 4 0.0 5 0.5 6 0.8 7 0.1 8 0.3 9 0.7 10 1.9 11 0.005737704918032787 12 0.3 13 0.3 14 1.1 15 3.1 16 0.008333333333333333 ...
Explore and run machine learning code with Kaggle Notebooks | Using data from Predict Future Sales
匿名 描述 数据列表 数据名称上传日期大小下载 文档 目录
本文记录了Kaggle上Predict Future Sales问题的探索过程。 基础特征 数据主要有三个特征:shop_id, item_id, item_cnt_day。因为题目要求预测月份的销量情况,需要将训练数据中的按天销量改为按月销量,这里可以使用group_by或者pivot_table函数进行聚合。 train_data = pd.read_csv('./data/sales_train.csv') #删...
数据清洗思路 (1)异常值 销量数item_cnt_day为负数7356条 #状态改为删除 update sales set status =0 where item_cnt_day <0 (2)离群点 update sales set status =0 where item_price >=100000 update sales set status =0 where item_cnt_day >=1001 ...
数据集解析: 要求是预测15年10月的选定商店中商品的销量; 1.注意预测的输入是(shop_id, item_id) , 我之前直接用item_id去预测, 走了弯路; 2.只预测一个月,实现相对简单; 参考的方法 xgboost 参考链接: https://www.kaggle.com/code/szhou42/predict-future-sales-top-11-solution ...
item_cats = pd.read_csv('../input/competitive-data-science-predict-future-sales/item_categories.csv') 数据预处理 还记得上文EDA部分中,我们对item_price、item-cnt-day两个字段进行了异常值分析,可以看到,两个字段都存在异常数据点,那么在此baseline中,数据的预处理只是删除了异常值所在的数据行。
github:https://github.com/alexshuang/predict_future_sales/blob/master/predict_future_sale_rf.ipynb Look at Data Quickly 通常情况下,拿到这类tabular数据集之后,我会先大致浏览数据中各个字段的含义,并构建一个基础模型来试探这个数据集,根据反馈结果再重新深入理解各个字段的具体含义,深挖它们的特征和关联,也...
predict-future-sales kaggle->predict-future-sales项目 关注 2 概览 仓库 1 Issues Pull Requests 动态 成员 2 申请加入组织 热门 main 主文件夹 Python 2 0 0 组织介绍 组织介绍 请描述组织的定位/愿景 请附上组织宣传图 他们正在使用 这些公司或软件正在使用我们的开源软件: 如何加入 请发送申请...
~isin()函数: Eg.剔除 name 不为[‘云韵’,‘美杜莎’],或age 不为[19,20] 的数据 df2[~(df2['name'].isin(['云韵','美杜莎']) | df2['age'].isin([19,20]))] *isin()函数即输出包含该元素的df 万能的切片!!->loc函数和iloc函数详细用法: 创建用于测试的数据表dataframe: import pandas as...