麻省理工学院(MIT)近日发布了一则致歉声明,宣布将 Tiny Images Dataset 数据集永久下架,并向全社会呼吁共同停用并删除这个数据集,已有该数据集的用户不要再向他人提供。近一年内,已经有数个由企业和科研机构发布的知名数据集,遭到下架或永久封禁的处理,其中包括微软的 MS Celeb 1M 名人数据集、杜克大学发布用...
为提高数据透明度,MIT 及其他机构的一个跨学科研究团队对 1800 多个常见数据集进行了系统审计,发现超过 70% 的数据集缺少某些许可信息,约 50% 的数据集包含错误信息。基于这些发现,研究团队开发了一款名为“数据来源探索器”的用户友好的工具,该工具能够自动生成数据集的创建者、来源、许可和允许使用方式的易于阅...
Prabhu和Birhane发现,在MIT数据库中,有成千上万张带有针对黑人和亚洲人的种族主义诽谤标签的图像,以及侮辱女性的词汇。此前,他们刚刚将研究结果以一个数据集的形式提交给了明年举行的计算机视觉大会。▲MIT数据集中标有所选问题单词的图片数量 这个数据集包含从Google影像中抓取的超过79,300,000张图像,分布在75,0...
为了保持数据集的完整性以及有效性,严禁进行“滥用”分享。 数据集概况 CheXpert数据集里面有224316张胸部X光图片,共涉及65,240名患者。数据集的时间跨度为2002年10月到2017年7月,都是患者在斯坦福医院进行胸部X光检查之后的留存。除此之外,数据集还附有相关的放射学报告。 如何为CheXpert数据集打标签 每份报告都对1...
去年10月,来自麻省理工学院(MIT)、Cohere for AI以及其他11个机构共同发布了Data Provenance Platform(数据溯源平台),旨在解决AI模型训练数据集的来源和使用透明度不足的问题。数据是人工智能三大要素之一。随着人工智能的兴起,大量数据标注公司涌现,以满足日益增长的市场需求。然而,正确性和真实性关系到大模型训练...
近日,来自麻省理工学院(MIT)研究团队及其合作者在提高大模型准确性、减少偏差方面取得了新进展—— 他们开发了一种名为 “Data Provenance Explorer” 的结构化审查工具,其通过自动生成详细的数据来源卡片,帮助AI从业者选择更适合其大模型的训练...
IT之家 6 月 26 日消息,美国麻省理工学院(MIT)的研究团队近日发表论文指出,现有的第三方推特(Twitter)机器人账户自动检测工具并不准确,因为其数据集过于简单,缺乏泛用性。此前有消息称,机器人账户过多是阻止马斯克收购推特的原因之一。推特当时声称其日活跃用户中有 5% 是机器人账户,但马斯克表示这个数字要...
近日,为了营造健康的学术氛围,反对并遏制种族歧视等各类偏见,MIT 也采取了相应的行动:将存在种族歧视和性别偏见内容的 Tiny Images 数据集永久移除。Tiny Images 数据集中包含大量冒犯性标签的图像。该数据集创建于 2006 年,删除它的原因是这个有八千万张图像的数据集中含有大量的带有种族歧视等偏见的内容。比如,...
援引外媒 The Register 报道,麻省理工大学(MIT)近日发出致歉声明,并已经紧急下线了被广泛引用的数据集。该数据集用于训练人工智能系统,不过近日发现该数据集中存在不少描述种族主义、厌女以及其他问题的术语。经外媒 The Register 提醒,这所美国知名学府本周删除了该数据库。MIT 还敦促研究人员和开发人员停止使用该...
来自MIT的两名博士生杨宇喆和Zhi Xu,想到了一种新的解决方案,研究成果登上了NeurIPS 2020顶会。一起来看看。一些已有的解决办法 事实上,此前为了解决“不均衡”数据集,研究者们已经尝试过多种方法。仅仅是主流算法,就分为七种:重采样(re-sampling):分为对少样本的过采样、及多样本的欠采样,但这2种...