Yurochkin[3]等人以及 Hsu[4]等人通过研究狄利克雷分布来生成更多不同的 Non-IID 数据集。 现实世界的 Non-IID 数据集:Shakespeare 和 Stack Overflow[5]数据集包含按照每位用户的id划分的文本数据,Luo[6]等人提供了来自26个接头摄像机提供的900张图片进行目标检测任务。 但是这些数据集受限于数据规模大小,并不...
步骤3中,第k个客户端使用的本地无标签数据集包括c类数据,通过调整dirichlet分布函数的参数μ1,..,μc来生成不同non-iid水平的数据分布; [0017] 假设是从狄利克雷分布函数中随机抽取的一组c个实数值,即θ~dir(μ1,...,μc),狄利克雷分布函数为: [0018][0019] 其中,γ( · )表示gamma函数,对于第k个...
def dirichlet_split_noniid(train_labels, alpha, n_clients): ''' 按照参数为alpha的Dirichlet分布将样本索引集合划分为n_clients个子集 ''' n_classes = train_labels.max()+1 # (K, N) 类别标签分布矩阵X,记录每个类别划分到每个client去的比例 label_distribution = np.random.dirichlet([alpha]*n_clie...