IID是数据独立同分布(Independent Identically Distribution,IID),显然,Non-IID意思就是数据之间非独立,非同分布。 IID指:输入空间X的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立地从这个分布上采样而得。在概率论与统计学中,独立同分布是指一组随机变量中每个变量的概率分布都相同,且这些随机变量互相独立。
联邦学习Non-IID特点导致的问题 模型收敛困难:当本地数据的分布不同或者数据质量差异较大时,全局模型的收敛可能会受到影响,因为不同设备的本地模型更新可能不容易合并。 性能不稳定:由于非IID数据分布,全局模型可能在某些设备上表现良好,但在其他设备上表现较差,导致性能不稳定。 Non-IID经常伴随着异构性这三个字一...
非数据独立同分布(Non - Independent Identically Distribution,Non-IID) Non-IID的意思即数据之间非独立,或者非同分布。但现实数据一般都是独立的。数据与数据之间都是独立的,但不满足同一个分布。 实场景中不同设备的数据的质和量都不尽相同,数据很难满足 IID 的前提假设。 值得一提的是,现在的研究也开始着眼于...
简言之,利用基于IID假设的独立同分布学习算法在Non-IID数据上学习,得到的结果可能不完整、有偏差,甚至是错误的。 Non-IIDness / Non-IID Learning Concepts 下面介绍非独立同分布性Non-IIDness的概念【2】。不论是大数据还是小数据都有两个问题:一个是异构性(Heterogeneity),体现在很多方面,比如数据的类型、属性、...
IID是数据独立同分布(Independent Identically Distribution,IID),显然,Non-IID意思就是数据之间非独立,非同分布。 IID指:输入空间X的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立地从这个分布上采样而得。在概率论与统计学中,独立同分布是指一组随机变量中每个变量的概率分布都相同,且这些随机变量互相独立...
今天探讨非独立同分布(non-iid)数据的概念。在概率论与统计学中,独立同分布(iid)意味着一组随机变量独立且概率分布相同。在机器学习领域,iid假设是传统有监督学习研究的重要前提。以cifar-10数据集为例,若均匀划分数据集,训练集与测试集间满足iid。但在实际操作中,非iid数据集可能来源于不同来源...
1 病态不独立同分布(Non-IID)划分算法 在博客《分布式机器学习、联邦学习、多智能体的区别和联系》中我们提到论文[1]联邦学习每个client具有数据不独立同分布(Non-IID)的性质。 联邦学习的论文多是用FEMNIST、CIFAR10、Shakespare、Synthetic等数据集对模型进行测试,这些数据集包括CV、NLP、普通分类/回归这三种不同的...
然而客户端数据同时呈现出非独立同分布(non-IID)和长尾分布时会严重影响全局模型准确率,从而对联邦学习造成根本性挑战。针对非独立同分布和长尾数据,提出一种通过模型和逻辑校准的双解耦联邦学习(FedDDC)框架。该模型具有3个特点。首先,解...
同分布与独立在统计学领域作为研究样本生成或挑选样本的假设。独立同分布(IID)意味着所有样本点从同一未知隐含分布独立抽取。而非独立同分布(Non-IID)则表示样本之间存在依赖关系或分布在不同。IID假设简化了数学计算,便于模型构建与参数估计。在训练数据具有充分代表性的前提下,该假设能减少过拟合风险...
『Federated Learning on Non-IID Data Silos: An Experimental Study』,非独立同分布数据孤岛的联邦学习:一项实验研究。 详细信息如下: 01 背景与引言 联合学习(FL)使多方能够在不交换本地数据的情况下协作地训练机器学习模型,其中一个关键和共同的挑战是各方之间的数据分布的异构性,即各方的数据通常是非独立且非...