于是,我们引入池塘抽样法(又称水塘抽样) 池塘抽样法 从S中抽取首k项放入「水塘」中 对于每一个S[j]项(j ≥ k): 随机产生一个范围从0到j的整数r 若r < k 则把水塘中的第r项换成S[j]项 用枚举数组S{1,2,3}来帮助理解: 当遍历到S[1]时,概率为1,只有一个数那肯定不存在均等的概念 S[2]时,...
即可 那么,运用水塘抽样算法,我们可以发现,对于第 i 个元素,其随机值为0的概率 ,这只是表示该元素此时被选中的概率,最终如果确定选择该元素,则还需要后续元素不被选中(否则会被替换掉) 此时,元素 i 被选中的概率为: 因此,每个元素被选中的概率都是 ,实现随机抽样 扩展:对于抽样元素不为1时,假设抽样个数为 m...
一种基于改进的水塘抽样的大数据集多遍随机抽样方法专利信息由爱企查专利频道提供,一种基于改进的水塘抽样的大数据集多遍随机抽样方法说明:提供一种基于改进的水塘抽样的大数据集多遍随机抽样方法,包括步骤:打开含n个数据记录的大数据集文...专利查询请上爱企查
步骤S4-1:将大数据集文件的前部中k个“未被抽样的”数据记录复制到水塘中,同时将这些数据记录标记为“已被抽样的”; 步骤S4-2:以逐渐减小的概率随机地用大数据集文件的后部中某些“未被抽样的”数据记录来替换水塘中某些数据记录,同时将这些被替换的数据记录恢复标记为“未被抽样的”,并将用于替换的数据记录标记...
步骤S4:重复进行m遍随机抽样,在每遍随机抽样过程中,利用水塘从大数据集文件中随机抽取k个“未被抽样的”数据记录,并将它们添加至小数据集文件,同时将它们标记为“已被抽样的”; 步骤S5:关闭上述大、小数据集文件,完成多遍随机抽样过程。 在该方法中,所述步骤S4进一步包括: ...