现有的机器学习任务默认训练数据遵循独立同分布 (idependently and identically distributed, IID),神经网络、深度学习等常见算法一般都将数据遵循 IID 的假设作为其推导的一部分。 然而,在真实世界中样本数据相关性(inter-dependent)几乎无处不在,非同源数据/标签的分布也可能具有不同的概率分布,这些数据都遵循非独立、...
在机器学习的上下文中,IID 是指用于构建模型的训练数据是从相同的基础分布中独立随机采样的假设。假定每个数据点都独立于其他数据点,并遵循相同的分布特征。这种假设使得应用强大的统计方法和学习算法成为可能,这些方法和算法依赖于数据中不存在系统依赖性或偏差。 三、IID在机器学习中的假设 独立性:独立性假设意味着一...