一、发现重复值 在数据的采集过程中,有时会存在对同一数据进行重复采集的情况,重复值的存在会对数据分析的结果产生不良影响,因此在进行数据分析前,对数据中的重复值进行处理是十分必要的。本节主要从重复值的发现和处理两方面进行介绍。 本节各案例所用到的df数据如下,在各案例的代码展示中将不再重复这部分内容。
returnlower, upper 2. Z-score Z-score为标准分数,测量数据点和平均值的距离,若A与平均值相差2个标准差,Z-score为2。当把Z-score=3作为阈值去剔除异常点时,便相当于3sigma。 defz_score(s): z_score = (s - np.mean(s)) / np.std(...
1) print(np.poly1d(np.polyfit(X,y,1)) ) plt.plot(df.Time,s*df.Time+b) # 5th power polynomial (trend following nature) t,v,w,x,y,z = np.polyfit(df.Time,df.Value,5) print(np.poly1d(np.polyfit(X,y,5))) plt.plot(df.Time,t*np.power(df.Time,5)+v*np.power(df.Time,4...
# ===# 5、常用分析方法# ===# RFM分析示例(适用于电商)defrfm_analysis(df):# 假设df包含用户交易数据rfm=df.groupby('user_id').agg({'order_date':lambdax:(df['order_date'].max()-x.max()).days,# Recency'order_id':'count',# Frequency'amount':'sum'# Monetary}).rename(columns={'...
Y_rv_df = pd.DataFrame({'Y_simulated_pmf': Prob_of_Y_values,\ 'Y_theoretical_pmf': Y_probs},\ index=y_values) Y_rv_df.plot(kind='bar') plt.grid(); 输出如下:图8.11:Y 的 pmf 与模拟结果这两组柱状图几乎是相同的;我们从模拟中得到的概率非常接近理论值。这显示了模拟的力量。
df = pd.read_csv(csv_path) # 查看前五行 print(df.head()) # 检查数据维度 print("Shape of the dataset:", df.shape) 3. 查看数据基本信息 在加载数据后,通常需要检查其基本信息,比如数据规模、列类型、缺失值情况等。 语法 df.info() # 查看数据基本信息 ...
import numpy as np import pandas as pd from sklearn.ensemble import RandomForestClassifier # url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data' url1 = pd.read_csv(r'wine.txt', header=None) # url1 = pd.DataFrame(url1) # df = pd.read_csv(url1,header...
# Import the scikit-learn function to compute error. from sklearn.metrics import mean_squared_error import pickle import pandas rental_model = pickle.loads(py_model) df = rental_score_data # Get all the columns from the dataframe. columns = df.columns.tolist() ...
# 创建StandardScaler对象scaler=StandardScaler()# 选择需要标准化的特征列features=data[['feature1','feature2','feature3']]# 对特征进行标准化scaled_features=scaler.fit_transform(features)# 将标准化后的特征构建回DataFramescaled_features_df=pd.DataFrame(scaled_features,columns=['feature1','feature2','...
full = pd.concat([full,embarkeddf],axis=1) #添加one-hot编码产生的虚拟变量(dummy variable)到full中full.head() 结果:通过concat函数将新增的列加到原数据表中。 full.drop('Embarked',axis=1,inplace=True) #将原Embarked列删除full.head() #对客舱等级Pclass进行同样的one-hot编码处理pclassdf = pd...