该研究收集了韵诗和诗歌的数据集,研究其中的性别刻板印象,并提出了一个97%的准确率模型来识别性别偏见。在此基础上,利用大语言模型(LLM)进行性别刻板印象的校正,并与人类的干预进行了对比。这项工作揭示了文学作品中性别刻板印象的普遍性及利用LLM修正性别刻板印象的潜力,对提升性别平等意识,促进艺术表达的包容...
今天给大家带来一篇性别偏见探索和缓解的中文数据集-CORGI-PM,全名《CORGI-PM: A Chinese Corpus For Gender Bias Probing and Mitigation》,共包含32900个高质量标签的句子,是第一个用于性别偏见探测和缓解的句子级中文数据集,共包含3种任务:偏见检测、偏见分类和偏见缓解。 paper: https://arxiv.org/pdf/...
【五号雷达-数据快讯】诗歌与童谣性别偏见数据集 该数据集由Sri Sathya Sai Institute of Higher Learning、GESIS等研究机构联合创建,旨在识别并修正诗歌与童谣中的性别刻板印象。数据集包含来自多个来源的诗歌与童谣,例如莎士比亚与弗罗斯特的知名作品,以及Mother Goose等集合,并经过人工注释,详细记录了其中的性别偏见情况。
【五号雷达-数据快讯】诗歌与童谣性别偏见数据集 该数据集由Sri Sathya Sai Institute of Higher Learning、GESIS等研究机构联合创建,旨在识别并修正诗歌与童谣中的性别刻板印象。数据集包含来自多个来源的诗歌与童谣,例如莎士比亚与弗罗斯特的知名作品,以及Mother Goose等集合,并经过人工注释,详细记录了其中的性别偏见情况。
自然语言处理中性别偏见消除的方法是在评价了词嵌入中的性别偏见后发展起来的,主要有两条思路:其一是从机器产生偏见的源头出发,构建无偏数据集让机器学习。其二是从算法的角度消除偏见。但是,这些去偏方法并不能完全去除模型中的偏见 (Gonen and Goldberg, 2019)。
Facebook今天开源了一个数据集,旨在体现计算机视觉和音频机器学习模型中的年龄、性别和肤色偏见。该公司声称,这个语料库Casual Conversations,是第一个以付费者为主角的语料库,他们明确提供了自己的年龄和性别,而不是由第三方来标注这些信息或使用模型来估计。Casual Conversations包含3000名参与者的4100多段视频,其中...
因此,该论文提出了第一个用于性别偏见探测和缓解的句子级中文语料库,采用一种自动方法(如图1所示,对含有性别偏见得分高的词的样本进行召回,然后根据其句子级性别偏见概率对样本进行重新排序和过滤),从现有的大规模中文语料库中构建可能存在性别偏见的句子集,再通过精心设计的标注方案,对候选数据集进行进一步的标注,构建...