ACL 2020 | 词嵌入性别偏见难以避免？“双硬去偏”新方法来了！

Paper: https://arxiv.org/abs/2005.00965
Github: https://github.com/uvavision/Double-Hard-Debias

研究背景

源自人为生成的语料库的词嵌入，具有很强的性别偏见，而且这种性别偏见会被下游模型进一步放大。我们发现语料库的规律性如词频等，会对现有的事后比较去偏算法（post-hoc debiasing algorithms）的性能产生负面影响，于是我们提出在推断和去除性别子空间之前，根据语料库的规律性对词嵌入进行净化处理。

1. 词嵌入中的性别偏见

词嵌入是指用有意义的数字向量表示词汇表中的单词，它们能够捕捉单词的语义和句法意义以及与其他单词的关系。尽管词嵌入向量在自然语言处理任务中得到了广泛的应用，但它还是被批判：从训练语料库中继承了无意识的性别偏见。

正如论文《Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings》中所讨论的那样，当一个词的语义是中性而学到的词嵌入却更偏向特定的性别时，就暴露出了性别偏见的问题。例如，在下图中，x坐标表示的是对嵌入的单词“he”（他）和“she”（她）之间的差异，而y坐标表示捕获性别中立的嵌入过程中学到的倾向，中性的单词在x轴之上，而特定性别的单词在x轴之下。尽管“brilliant”（聪明）和“genius”（天才）在定义上是中性的，但它们的嵌入更接近“he”（他）。同样，“homemaker”（操持家务者）和“sewing（”缝纫）与“she”（她）更接近。

ACL 2020 | 词嵌入性别偏见难以避免？“双硬去偏”新方法来了！

2. 为什么性别偏见是一个严重的问题?

词嵌入中的性别偏见确实是一个很严重的问题？想象一下，如果人们训练了一个基于具有偏见的词嵌入的简历筛选模型，那么这个模型就会针对程序员等岗位自动地过滤掉女性应聘者，也会针对理发师等职位筛除掉男性应聘者。同样，一个把医生全都当作男性以及把护士全都当作女性的问题应答模型，当被用来理解医疗报告时，它提供的答案也会是错误的。

3. 早期的“硬去偏”方法

之前的方法是通过后处理方式减少词嵌入中与性别相关的部分从而减少性别偏见。具体来说，它需要一系列与性别相关的词对，并计算这些词对的差分向量的第一主成分作为嵌入空间中的性别方向。然后将有偏词嵌入映射到与推测的性别方向正交的子空间中，以消除性别偏见。虽然此方法确实能够在单词类比任务中减轻性别偏见，但另一项工作《Lipstick on a pig: Debiasing methods cover up systematic gender biases in word embeddings but do not remove them》认为这种方法并不是特别有效，因为去偏后嵌入的几何图形中仍然存在性别偏见。

ACL 2020 | 词嵌入性别偏见难以避免？“双硬去偏”新方法来了！

4. 词频会对性别方向产生负面影响

在这篇论文中，我们假设现有的“硬去偏”方法很难确定词嵌入正确的性别方向。《Frage: Frequency-agnostic word representation》和《All-but-the-top: Simple and effective postprocessing for word representations》两项工作表明，词频会显著影响词嵌入的几何结构。例如，常用词和罕见词会聚集在嵌入空间的不同子区域，不过，这些聚集在同一个子区域的词在语义上并不相似。这会对性别方向的定义过程产生负面影响，从而降低“硬去偏”方法消除性别偏见的能力。通过经验可以证明，某些词的使用频率变化，会导致其对应的差分向量与其他词的差分向量之间的相似性发生显著变化，如下图所示。

ACL 2020 | 词嵌入性别偏见难以避免？“双硬去偏”新方法来了！

“双硬去偏”方法

这项工作中，我们通过消除词频对性别方向的影响来提高“硬去偏”方法的性能。由于词频会改变性别方向，我们提出运用“双硬去偏”法来消除词频对性别方向的负面影响。此方法的关键在于：使用硬去偏之前，将单词嵌入映射到一个中间的子空间中。回顾一下，我们前面讨论的硬去偏方法就是通过将嵌入空间转化为无特定性别的空间来降低性别偏见。

同样地，在双硬去偏方法中，我们首先将所有的单词嵌入转换成一个与使用频率无关的子空间，在这样的子空间中，我们能够计算出一个更加准确的性别方向。更确切地说，我们试图找到一个能够分散性别方向计算的编码频率信息的维度。然后我们从词嵌入中沿着这个特定的维度映射出组件，从而获得修正的嵌入向量，再对其应用硬去偏方法。

ACL 2020 | 词嵌入性别偏见难以避免？“双硬去偏”新方法来了！

为了确定这个维度，我们利用具有高偏见的单词的聚类作为指标，迭代测试词嵌入的主成分。具体步骤如下:

计算所有单词嵌入向量的主成分作为候选的频率维度。
选择一系列高性别偏见的男性和女性词汇（如程序员，家务操持者，游戏，跳舞等）。
分别对每个候选维度重复步骤4-6。
将词嵌入映射到一个与正交的中间空间，从而得到修正的词嵌入。
对修正的词嵌入应用"硬去偏"方法。
高性别偏见的单词经过步骤5得到去偏嵌入，再聚类此去偏嵌入，然后计算该聚类的精度。

如果步骤6中的聚类算法仍然将具有性别偏见的单词按性别分成两组，则说明去除 ACL 2020 | 词嵌入性别偏见难以避免？“双硬去偏”新方法来了！并不能改善去偏效果。因此，我们可以筛选出导致有偏词聚类精度下降最显著的那个，然后将其删除。

“双硬去偏”方法效果如何？

我们在几个偏见消除基准上评估“双硬去偏”法，其中包括一个重要的下游任务——共指消解(coreference resolution）。

我们使用WinoBias数据集来量化共指系统中的性别偏见。WinoBias由两种类型的句子组成，每种类型的句子都可以划分为一个对性别有刻板印象的子集和一个反性别刻板印象的子集。性别，是这两个子集之间唯一的区别。

举例来说，第一类句子中包含了一种对性别有刻板印象的句子: “The physician hired the secretary because he was overwhelmed with clients”（医生雇佣秘书是因为他的病人太多了）。而反性别刻板印象的句子是“The physician hired the secretary because she was overwhelmed with clients”（医生雇佣秘书是因为她的病人太多了）。

性别刻板印象子集和反性别刻板印象子集的表现差异，反映了共指系统对于男性群体和女性群体有哪些不同的表现，所以我们将这种差异度作为性别偏见分数。原始的GloVe嵌入具有显著的性别差异，我们可以从其性别偏见分数中看到两种类型的句子之间的差距：一个达到29分，而另一个只有15分。

与“硬去偏”方法和其他先进的去偏方法相比，我们的方法在两种类型的共指句子中都实现了最小差异。同时，“双硬去偏”法也保留了词嵌入中有用的语义信息。在最初的测试集上，我们观察到F1分数只下降了0.1%。

ACL 2020 | 词嵌入性别偏见难以避免？“双硬去偏”新方法来了！

我们还对500个带有高性别偏见的女性/男性词嵌入进行 tSNE 映射。如下图所示，原始GloVe嵌入被清晰地映射到不同的区域，显示出强烈的性别偏见。与其他方法相比，双硬GloVe最大程度地混合了男性和女性嵌入，去偏后能捕获到更少的性别信息。

ACL 2020 | 词嵌入性别偏见难以避免？“双硬去偏”新方法来了！

结论

我们发现，词频统计上的一点小变化就会对词嵌入的性别去偏方法产生负面影响。在以往的性别去偏工作中，词频统计一直被忽视，而我们提出的“双硬去偏”法能够减轻词频特征对去偏算法的负面影响。

我们相信，引入无性别偏见且实用的词嵌入是十分重要的，同时也希望通过我们的这项研究工作，能够激励这一方向出现更多研究工作。

via https://blog.einstein.ai/double-hard-debias-tailoring-word-embeddings-for-gender-bias-mitigation/ 雷锋网雷锋网(公众号：雷锋网)雷锋网

雷锋网原创文章，未经授权禁止转载。详情见转载须知。

（完）