数据集中的偏见多种多样,可以根据性别、种族、社会经济状态等多个维度划分。 数据集中的偏见不仅影响算法的公平性和准确性,还可能在实际应用中造成严重后果。例如,在医疗领域,基于偏见数据集开发的预测模型,可能会忽视某些群体的特定健康问题,导致这些群体得不到及时的诊断和治疗。 在人力资源管理中,使用偏见数据训练的...
总之,报告显示,现代神经网络惊人地有能力从不同的数据集中发现隐藏的偏见。与十年前Torralba和Efros的论文中的 “命名该数据集”游戏 相比,鉴于今天能力强大的神经网络,这个游戏甚至变得更加容易。从这个意义上说,涉及数据集偏见的问题尚未得到缓解。论文标题:A Decade’s Battle on Dataset Bias: Are We There ...
本研究基于一个被称之为数据集分类的虚构任务(例如其中一个研究的典型组合被称为“YCD”,呈现了一个三向数据集分类问题),由构建更少偏见的数据集与开发更强大的模型之间的张力驱动。 令研究者和许多最初读者惊讶的是,现代神经网络在这样的数据集分类任务上可以取得极高的准确率,且这一观察结果非常稳健。进一步的...
本研究基于一个被称之为数据集分类的虚构任务(例如其中一个研究的典型组合被称为“YCD”,呈现了一个三向数据集分类问题),由构建更少偏见的数据集与开发更强大的模型之间的张力驱动。 令研究者和许多最初读者惊讶的是,现代神经网络在这样的数据集分类任务上可以取得极高的准确率,且这一观察结果非常稳健。进一步的...
总之,报告显示,现代神经网络惊人地有能力从不同的数据集中发现隐藏的偏见。与十年前Torralba和Efros的论文中的 “命名该数据集”游戏相比,鉴于今天能力强大的神经网络,这个游戏甚至变得更加容易。从这个意义上说,涉及数据集偏见的问题尚未得到缓解。 论文标题: ...
“神经网络可以克服数据集偏见,这是令人鼓舞的。但这里的主要收获是,我们需要考虑数据的多样性。我们需要停止认为,如果你只收集大量原始数据,这会让你有所收获。我们首先需要非常小心地设计数据集。”Xavier Boix说,他是大脑与认知科学系(BCS)和大脑、思维与机器中心(CBMM)的研究科学家,也是该论文的高级作者...
继 Yann LeCun 为存在数据偏见的算法辩护被骂退出推特之后,BLM 运动继续在学界蔓延。MIT 宣布永久下架包含种族和性别歧视标签图像的 Tiny Images 数据集,并致歉。此外,谷歌研究科学家 Samy Bengio 针对学界中的「名人效应」提出自己的建议,呼吁「有意识地引用较低关注度学者的论文」,从而引发网友热议。轰轰烈烈的...
在被业内人士指出数据集存在种族歧视等偏见后,麻省理工学院(MIT)迅速永久下线了该数据集。MIT教授对此道歉,这种缺漏更多地是源于研究者只考虑到数据集名词拷贝时的便利性,而没有对可能出现的种族偏见问题进行考虑和解决。长期以来,人脸识别等AI模型在西方都被诟病带有偏见,使得许多地区禁用技术。当我们看到这些...
长久以来,我们都将注意力放在了算法性能上,而对于算法偏见,我们并没有很完善的研究。通常直观的想法就是修正数据集,以构建类别平衡的训练集,但是这又额外地引入了工作量。在 MIT 的 AAAI 2019 新研究中,作者借助 VAE 学习训练数据的潜在结构,并以学到的潜在分布给数据点加权从而解决算法偏见问题。 算法中的偏见可...
偏见问题 从广义上讲,有偏见的数据集困扰着人工智能研究的所有领域。今年7月《华盛顿邮报》委托进行的一项研究显示,亚马逊和谷歌制造的智能音箱比非母语音箱的非美国音调低30%。此外,IBM和微软等公司使用的用于衡量语音模型错误率的数据集“Switchboard”等语料库也显示出了明显的偏向于该国特定地区用户的倾向。它...