新基准衡量语音翻译系统中的性别偏见
一个预印本纸特伦托大学的研究人员发表提出了一个标杆-必SHE -评估语音翻译系统是否喂文本数据是由事实制约的句子有时会省略的性别身份的线索。共同作者断言,这些系统可能而且确实表现出性别偏见,并且超出文本的信号(例如音频)提供了可能减少这种偏见的上下文线索。
在机器翻译中,性别偏见至少部分归因于语言表达女性和男性性别的差异。那些拥有性别语法体系的人,例如罗曼语系的语言,都依赖于一套适用于单个词性的词尾变化和性别协议手段。例如,英语是“自然性别”语言,这是不正确的-它仅通过代词,内在性别的单词(例如“男孩”,“女孩”)和带标记的名词(“演员”,“演员”)。
无法理解细微差别的AI翻译系统有可能使人口统计群体的代表性不足或失实。因此,研究人员创建了MuST-SHE,这是一种多语言测试套件,旨在揭示语音翻译中的性别偏见。
MuST-SHE是TED演讲的一个子集,包含来自开源MuST-C语料库的英语-法语和英语-意大利语对的大约1000录音,笔录和翻译,并带有与性别相关的定性差异和平衡现象。它分为两类:
第1类:样本,如果性别协议仅取决于说话者的性别,则可以从音频信号中消除歧义的必要信息。
第2类:可以从话语内容中恢复歧义信息的样本,其中的上下文提示包括性别排斥词(“妈妈”),代词(“ she”,“ his”)和专有名词(“ Paul”)告知性别。
对于语料库中的每个参考,研究人员创建了一个与原始词相同的“错误”词,除了传达性别一致性的形态信号。结果是,在性别的正式表达方面,与正确的引用相比,一组新的引用是“错误的”,其思想是该差异可用于衡量语音识别系统处理性别现象的能力。
在一系列实验中,研究人员创建了三个语音识别系统:
End2End在MuST-C和开源Librispeech数据集上进行了培训,并通过自动将原始英语成绩单翻译成目标语言进行了扩充。
Cascade与End2End共享相同的核心技术,但通过OPUS信息库对7,000万种英语对意大利语和意大利语进行了培训,对1.2亿对英语对法语进行了培训,之后对MuST-C培训数据进行了微调。
Cascade + Tag,与Cascade相同的模型,只是在训练数据中添加了指示说话者性别的标签。
有趣的是,研究人员发现,在对MuST-SHE进行评估时,将性别信息注入Cascade并没有可测量的效果。数据集中原始参考和“错误”参考之间的差值表明,所有三个系统都偏向男性化形式。
当涉及类别时,Cascade在类别1上表现最差,因为它无法访问正确翻译所需的说话者性别信息。相比之下,End2End利用音频功能准确地翻译了性别,但在第2类数据上却表现出最差的性能-可能是因为它是在Cascade和Cascade + Tag中使用的一部分数据上训练的。
研究人员写道:“如果像人类一样,'机器学习'就是我们的饮食,那么机器翻译和语音翻译模型的不同'饮食'可以帮助他们发展不同的技能。”“通过'吃'音频-文本对,语音翻译具有潜在的优势:可以从输入的音频信号中推断出说话者的性别。”
谷歌在Google Translate中主要介绍了针对性别的翻译,以解决性别偏见之后,该论文才发表。科学家们提出了一系列的方法来减轻和衡量它,最近有一个排行榜,挑战,并设置冠以指标StereoSet。