本文来自微信民众号:全媒派(ID:quanmeipai),原题目《谷歌翻译逆境破局:AI不是人,为什么也会有性别私见?》题图来自:IC photo
这些年来,Google Translate(谷歌翻译服务)一直被人诟病存在性别私见征象,例如Google Translate会默认将某些“中性”职业和特定的性别联系起来,“医生”一定是男性,而“护士”则往往是女性。
从2018年最先,Google就实验解决土耳其语和英语相互翻译时的性别私见问题,为与性别有关的词条提供两种版本的翻译(和汉语差别,土耳其语是“中性”语言。汉语中有“他”和“她”两种人称代词来区分性别,而土耳其语种仅存在“o”一种人称代词,不区分性别),划分展示指代男性和女性对应的语境。但此种解决方案可扩展性和准确度都较低,在推广到其它语言的翻译时困难重重。
巴别塔——圣经传说中人类协力制作的通天塔。天主为阻止此设计,让人类最先使用差别语言,无法相同。以Google Translate为代表的AI机械翻译,被认为是有可能“重修巴别塔”的未来科技。图片泉源:Hacker Noon
今年4月22日,Google AI Blog(Google AI营业新闻博客)揭晓了最新的文章,宣布Google Translate使用了优化升级的AI手艺,进一步削减了翻译中泛起的性别私见征象,且拓展性较原方案更强,现在已经可以支持英语与西班牙语、芬兰语、匈牙利语以及波斯语的翻译场景。
为何“没有情绪”的机械翻译模子也会自带性别私见属性?Google Translate事实使用了何种AI手艺来改善文本中的性别私见征象?本期全媒派编译VentureBeat文章,带你通过Google Translate在解决性别私见方面的起劲,领会AI行业探索“性别同等”之路。
不只是一个没有情绪的机械
AI手艺没有性别,却为何有性别私见?图片泉源:Medium
AI或机械学习手艺自然没有性别可谈,可性别私见和其它社会私见(如对岁数、职业、宗教、种族、甚至是地域的私见和歧视)却常泛起在AI产物之中,这也是现在AI行业极为关注的问题之一。
Google Translate的负责人Macduff Hughes在接受采访时注释了AI手艺“自带”私见的缘故原由,AI和机械学习手艺是通过训练数据来实现对产物和服务的支持的,而这些训练数据都是来自真实的社会场景,也就难免带有社会中既有的种种私见或歧视,接受了这些数据的AI模子则会“继续”这些看法。
用户在使用产物时又会受到这些私见的影响,长此以往形成恶性循环,导致以性别私见为代表的种种社会歧视越来越根深蒂固,而此种“私见”的文本数据越多,AI模子会变得越来越“社会化”,和人一样对事物发生固有的认知私见。
除去发生“性别私见”的翻译文本外,Google Translate还曾因将胡乱输入的原文本翻译成恐怖的宗教预言而备受关注,这与Macduff Hughes注释的AI及机械学习的底层运作机制有直接的关系,由于Google Translate用来打造AI产物时使用的训练数据往往都是宗教文本。
Google Translate会将原本毫无意义的语言翻译成恐怖的末日预言。图片泉源:Vice
在2018年,许多使用Google Translate的用户发现了一个可怖的征象。Google Translate会将原本毫无意义胡乱输入的原语言,翻译成末日预言,种种阴谋论也一时间甚嚣尘上。
对于那时热议的“阴谋论”事宜,Macduff Hughes也做了响应的注释,这照样同Google的训练数据有关的。虽然有许多人把这件事归咎于神秘的宗教主义或者外星人攻击等缘故原由上,但实在这是机械学习模子十分常见的问题。当用户的输入超出了机械学习模子的预期后,返回的数据也将是不合通例的。
2018年,Google Translate的用户发现在从毛利语至英语偏向,翻译19个“dog”时,会显示出圣经中的末世预言。图片泉源:Vice
BBN科技公司研究机械翻译的专家Sean Colbath,在那时曾对此事宜揭晓同样的看法,“若是他们(Google Translate)使用宗教文本作为训练数据来构建机械学习模子,那最后产出的文本就很有可能是带有宗教意味的”。
在此次事宜后,Google Translate也加大了对于AI去私见化的力度,首先就是在男女性别同等方面的起劲。正如Macduff Hughes所说的,“Google作为业内的先行者,会率领整个行业解决这些问题,首先就要解决在文本翻译服务中泛起的性别歧视的问题”。
若是现实的语言文本中就存在性别私见,那么翻译模子就会学习到这些私见,甚至强化它们。例如,当一种职业在60%~70%的情况下都是由男性负担的,那么翻译系统就会学习到这一特征,而在产出翻译时,把这种职业100%地归属于男性,这一点就是Google Translate需要解决的问题。
有关这一问题最典型的例子就是“医生”和“护士”,在最早的Google Translate中,机械翻译都市将原本应是性别中性的词语转换成男性属性的词语,重现现实社会中已有的私见,时任Google Translate产物司理的James Kuczmarski在博客中写到,“像‘强壮’、‘医生’等词语都市和男性挂钩,而‘护士’、‘优美’等词语则会和女性挂钩”。
而使用Google Translate的许多用户经常都抱有学习语言的目的,这些用户需要知道差别场景中语言文本的细微差别。这也是Google Translate决议启动“性别项目”的初衷。
性别特定的翻译功效:Google Translate解决私见初实验
实在早在2016年,Google Translate作为机械翻译行业手艺探索的先行者就一直在应用最新的手艺。2016年,Google Translate首次使用了“神经机械翻译”(Neural Machine Translation),而摒弃了经典的“统计机械翻译”(Statistical Machine Translation)。“统计机械翻译”实在是对文本举行逐字翻译,然则无法考虑到词性、时态、语序等语法因素,常导致最后的译文错误百出。而“神经机械翻译”则是逐句翻译,会将上述因素举行更好的处置。
使用了“神经机械翻译”手艺的Google Translate可以产出加倍自然、顺畅的译文,也具备了产出差别气概文本的潜力(如正式场所使用的语言气概或者生涯中使用的俗语俚语气概)。
到了2018年12月,Google Translate为领会决性别私见问题,又推出了“性别特定的翻译功效”(Gender-specific Translation)。土耳其语作为一种中性语言(即没有区分性其余人称代词)首先最先支持该功效。
“性别特定的翻译功效”支持译出两种性别场景的译文,供用户选择。图片泉源:The Verge
在此新功效的支持下,用户输入一条无明显性别信息的原文,会被转换为“男性”和“女性”两种场景的翻译。两种翻译都市展示在翻译效果中,由用户自行选择。
Google Translate研发团队接纳了特殊的处置模子,通过三个步骤将原文本转换为两种性别花样的翻译文本。首先,机械模子需要判断原文是否为“中性”语言文本,即未明确指出人称性其余文本;然后,Google Translate将产出男女两种人称的自力译文;最后再举行准确度检查。
此种处置模式首先被应用在将土耳其语翻译为英语的场景中,可支持短语和短句的翻译。随后又被拓展到将英语翻译为西班牙语的场景中,西班牙语和土耳其语与英语的互译是Google Translate中用户需求最大的两种语言对。这一功效最早支持用户在Chrome或者Firefox浏览器上使用,后续又设计在移动端及其它平台推出。
Google一直在拓展Google Translate的使用平台,其中也包罗自家的蓝牙耳机Pixel Buds。图片泉源:The Verge
然则当Google Translate准备将这一模式应用在更多语言的翻译中时,发现此方案的可扩展性有很大问题。具体来说,在使用“神经机械翻译”手艺产出两种“性别”的文本时,整个机械翻译系统的查全率较低。好比,当泛起10条需要举行“性别特定翻译功效”处置的文本时,系统只能够识别其中的4条。此外,若是要为每一种像土耳其语一样的“中性语言”设置可举行性别判断的分类识别器,将需要重大的数据量来训练机械模子,可拓展性极低,短期之内无法将此种功效应用到更多语言上。
优化翻译模子,进一步削减性别私见
今年的4月22日,Google Translate宣布解决了原先方案可拓展性较低的问题,并将“性别特定翻译功效”拓展到英语与西班牙语、芬兰语、匈牙利语以及波斯语的翻译场景中。这种拓展性更强的解决方案优化了原先的处置模子,接纳“重写”(Rewriting)加“译后编辑”(Post-editing)的方式,取代了原先的“判断”加“划分翻译”的处置模式,不再依赖于需要大量数据举行训练的性别识别器。
“我们此次的AI手艺方案实现了显著的性能提升,不仅提高了性别判断的质量,而且将功效拓展到了另外4种语言上,”Google高级软件研发工程师Melvin Johnson这样写到,“我们将继续沿着这个偏向探索下去,下一步准备解决长文本翻译中的性别私见问题。”
原有处置模式和优化处置模式对比。图片泉源:Google AI Blog
在新的处置模式下,系统不需要在第一步对原文举行判别,而是直接产出默认的翻译文本;在第二步则由“重写”功效,产出与默认翻译文本对立性其余本文。好比说,默认翻译文本是“他是一名医生”,则重写功效会产出对应的文本“她是一名医生”。最后再对两则翻译文本举行准确度检查,保证只有性别因素差别,其它因素保持一致。
要实现优化模式中的“重写”功效也绝非易事,Google为了实现该功效使用了百万级的训练语例,这些训练文本中包罗了区分两种性其余双语词组。由于这样规模的双语文本数据在短期之内很难获得,Google Translate团队还行使算法对现有的单语数据举行了处置,为其生成了包罗对应性其余语例文本。
用算法对单语文本举行处置,产出对应的双语文本数据。图片泉源:Google AI Blog
获得足够的训练数据后,Google Translate也加入了标点和格的转变(指主格、宾格、所有格等转变),增强模子的稳定性。行使此种模子可实现高达99%的性别判断准确度。
Google Translate此次使用的优化版AI手艺,将4种语言与英语的文本互译中的“性别私见”削减了90%以上,而用使用原方案的土耳其语—英语翻译场景中,对“性别私见”的解决度也从60%上升到了95%。系统判别是否需要展示两种性别文本的准确度稳定在97%。
Google Translate在行使AI举行机械翻译的道路上引领着手艺风潮。图片泉源:Pixabay
Google Translate虽然称不上完善,也远远无法取代专业的人类译者,但其在削减性别私见的道路上的每一次提高,都体现了Google对于削减AI性别私见的起劲。AI手艺是由人类缔造的并塑造的,手艺从业者需要像Google Translate一样,打造更公正同等的AI产物反哺社会,辅助人类向更文明的偏向生长。
参考链接:
1. https://venturebeat.com/2020/04/22/google-debuts-ai-in-google-translate-that-addresses-gender-bias/
2. https://ai.googleblog.com/2020/04/a-scalable-approach-to-reducing-gender.html
3. https://techcrunch.com/2018/12/07/google-translate-gets-rid-of-some-gender-biases/
4. https://www.theverge.com/2019/1/30/18195909/google-translate-ai-machine-learning-bias-religion-macduff-hughes-interview
5. https://en.wikipedia.org/wiki/Turkish_grammar#Pronouns
6. https://www.vice.com/en_us/article/j5npeg/why-is-google-translate-spitting-out-sinister-religious-prophecies
7. https://thenextweb.com/neural/2020/04/23/google-introduces-improved-ai-to-address-gender-bias-in-translate/
本文来自微信民众号:全媒派(ID:quanmeipai)
版权保护: 本文由 原创,转载请保留链接: http://www.allart.com.cn//html/2020/0514/1837.html