EMNLP最佳长论文作者独家解读：别让机器学习放大性别偏见，其实男人也喜欢购物！

本文作者：奕欣

2017-09-12 16:18

导语：用语料库级别的限制避免机器学习模型放大性别偏见。

近日，自然语言处理领域顶级国际会议 EMNLP 于丹麦哥本哈根举行。EMNLP是自然语言处理三大顶级会议（ACL, EMNLP, NAACL）之一，已经于前段时间公布了录用论文及最佳论文名单。详情可参见雷锋网AI科技评论此前文章：

万字长文，深度解读11篇 EMNLP 2017 被录用论文

EMNLP 2017 最佳论文揭晓，「男人也爱逛商场」获最佳长论文

其中，弗吉尼亚大学赵洁玉、王天露、Vincente Ordonez、张凯崴及华盛顿大学的 Mark Yatskar 凭借「Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints」摘得最佳长论文。雷锋网AI科技评论邀请了第一作者赵洁玉对此论文做了独家解读。

原文地址：https://arxiv.org/abs/1707.09457

概要

包含语言的视觉识别的任务，例如图片标题标注，视觉问答系统以及视觉语义角色标注任务已经成为从图片中获取信息的不同途径。这些任务通常依赖于大量的数据集、结构化的预测方法以及深度学习提取图片及语言中的丰富信息并以此解决这类问题。其中结构化的预测方法允许机器学习模型用标注之间的关系来提升预测的准确度。例如视觉语义角色标注任务（vSRL），需要对给定图片中所展示的动词以及与该动词相关的几个角色（工具，地点等）值进行预测。例如在图1中，考虑到铲子是一种常见的烹饪工具，结构化的预测模型会有很高的几率将“tool”预测为“spatula”。

EMNLP最佳长论文作者独家解读：别让机器学习放大性别偏见，其实男人也喜欢购物！

图1

尽管结构化的预测方法可以为我们提供较好的预测结果，但是这类方法会学习到数据集中存在的偏差 (bias)。如果不对模型进行修改限定，此类模型会做出具有偏见的预测。例如在上图中，模型从数据集中学习到女性与做饭之间的联系，即便给定一张描述男性做饭的图片（1.4），模型仍然会预测其为女性。这种将女性与做饭之间联系更紧密的情况，反映了一种社会成见，对不同的性别均有不良的影响。

在本文中，我们针对男女两个性别进行研究，通过实验发现，模型不仅会学习到数据集中的偏差，并且会放大该偏差。我们提出了RBA算法用于解决被放大的偏差，并且验证了我们的算法可以有效的减少放大的bias同时几乎保持了原有的模型性能。

模型对偏差的放大

我们针对以下两个任务进行研究：基于imSitu数据集的视觉语义角色标注(vSRL)任务以及基于COCO数据集的多标签物体识别(MLC)任务。本文中将以vSRL（如上图1）为例进行解释。该任务的目标在于预测所给定图片中的动词，以及图片中的其它角色。

在研究模型放大偏差的过程中，我们定义了测量集合以及属性集合。前者包含了所能预测的动词，比如cooking，washing等；后者则是一些人口特征，例如性别，年龄等。我们定义针对某动词的性别比例，该比例取值[0,1]，越接近于1，表明该动词越倾向于男性。

我们也定义了如何计算放大的bias。例如在训练集中，cooking的性别比例为33%，偏向于女性，但是在预测结果中，该比例变成了16%，表明这种bias被放大了17%。实验结果如下图2所示：不同的动词对不同的性别表现出不同的偏见程度。例如上文所提到的cooking更倾向于女性，此外“购物”，“洗衣”等都更偏向于女性；“驾驶”，“射击”以及“指导”则更偏向于男性。分析结果表明在vSRL任务中，所有动词平均放大的bias率为5%，在MLC任务中，该值为3%。

EMNLP最佳长论文作者独家解读：别让机器学习放大性别偏见，其实男人也喜欢购物！

图2

对模型的修订

验证了模型对bias的放大作用后，我们提出了RBA算法对模型进行修订以减少所放大的偏差。我们先从训练集中获取每个动词的性别比例作为参考标准，并以此限制预测的结果，即每个动词预测的性别比例应当在相应参考标准的特定范围内。通过引入这些限制条件，我们将原有的模型变成一种具有限制的预测模型。

我们提出利用拉格朗日松弛方法对此类模型求解，该方法的优点在于我们可以利用原有的预测方法而不必重新构造算法训练模型，并且在所有限制条件均满足的情况下，该算法可以保证达到最优解。具体来说，我们对每一个限制条件设置了一个拉格朗日算子，循环地根据当前的预测结果更新所有的算子，根据这些新的拉格朗日算子来更新预测算法所利用的因子值，从而可以得到新的预测结果。当所有的限制条件均满足或者已经循环了足够多的次数后，算法停止。

实验结果（图3）表明我们的算法可以有效的减少放大的偏见，并且不失原有模型的准确度。具体来说，在vSRL中，我们减少了40.5%的平均放大bias值，在MLC任务中，该值为47.5%。在准确度上，两个模型几乎保留了原有的准确度，应用算法前后只有0.1%的差距。 EMNLP最佳长论文作者独家解读：别让机器学习放大性别偏见，其实男人也喜欢购物！

Bias on vSRL without RBA Bias on vSRL with RBA

图3 算法在vSRL数据集上的结果

雷峰网特约稿件，未经授权禁止转载。详情见转载须知。

3人收藏

奕欣

初心者

扫描关注作者微信

发私信

当月热门文章