from sklearn.datasets import load_iris import pandas as pd数据 = load_iris() df = pd.DataFrame(data.data, columns=data.feature_names) 数据集由 4 列 150 行。 随机抽样 给定一个包含 N 行的dataframe,随机采样从dataframe中提取 X 随机行,其中 X ≤ N。Pythonpandas提供了一个函数,命名sample()为...
random.sample()和np.random.choice()两个函数都实现了从指定列表中提取N个不同的元素。区别之处在于: 从对象类型看:random.sample 方法比 np.random.choice 方法适用范围广; 从运行速度看:np.random.choice 用时基本不随数据量变化,而 random.sample 用时会随着抽样比例的增加而线性增长; 因此,当N值较大时,...
import pandas as pdimport random# 加载数据集data = pd.read_csv('spam.csv')# 随机选取30条邮件作为训练集train_index = random.sample(range(len(data)), 30)train_set = data.iloc[train_index]# 打印结果print(train_set.head())在这个示例中,我们首先使用pandas库中的read_csv函数加载一个包含垃圾...
1. import pandas as pd 2. dict = {'name':["Jack", "Tom", "Helen", "John"],'age': [28, 39, 34, 36],'score':[98,92,91,89]} 3. info = pd.DataFrame(dict) 4. #默认随机选择两行 5. info.sample(n=2) 6. #随机选择两列 7. info.sample(n=2,axis=1) 1. 2. 3. 4....
二、sample函数的应用实例 1.在数据分析中的应用 在数据分析中,我们可能需要随机选择数据子集进行训练或测试。以下是一个简单的示例,我们利用sample函数从Pandas的DataFrame中随机选择10行数据:import pandas as pd import random # 假设df是一个DataFrame df = pd.DataFrame({'col1': range(100), 'col2'...
Series([5, 4, 7, 3, 5, 8, 5, 6]) sample2 = pd.Series([6, 6, 7, 4, 3, 9, 7, 6]) 1.2 样本数据描述 # 平均值 sample1_mean = sample1.mean() sample2_mean = sample2.mean() # 标准差 sample1_std = sample1.std() sample2_std = sample2.std() # 个案数 n1 = sample...
import pandas as pd# 创建示例数据集data = {'姓名': ['张三', '李四', '王五', '赵六', '钱七'],'年级': [1, 1, 2, 2, 3],'成绩': [80, 90, 70, 85, 95]}df = pd.DataFrame(data)# 根据年级进行分层采样,每个年级选择两个样本sample = df.groupby('年级').apply(lambda x: x...
import pandas as pd data=np.loadtxt('data3.txt') len(data) data_sample=random.sample(data.tolist(),2000) #随机抽取2000个样本,sample函数,array必须转化为list len(data_sample) 1. 2. 3. 4. 5. 6. 7. 8. 9. 输出: 10000 2000 ...
–pd.read_pickle():读取二进制数据pickle; –pd.read_hdf():读取HDF5数据。 2. 数据预览: –head():返回数据的前几行,默认为前5行; –tail():返回数据的后几行,默认为后5行; –sample():随机抽取数据的几行。 3. 数据清洗: –dropna():删除缺失值所在的行或者列; ...
pandas学习之df.sample df.sample()用于从dataframe或者series中,随机取样。sample 美['sæmp(ə)l] v采样;取样;n样品 DataFrame.sample(self: ~ FrameOrSeries, n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)...