NLP如此钟情英语研究真的好吗？

全世界有7000多门语言，但自然语言处理（NLP）却主要研究英语这门语言。来自Deep Mind的科研人员Sebastian Ruder认为，当下NLP领域集中于开发能够有效处理英语的方法，却忽略了钻研其他语言的重要性。事实上，研究英语以外的语言不仅具有重大的社会意义，还有助于构建多语言特征模型，以避免过度拟合和应对机器学习的潜在挑战。雷锋网

NLP如此钟情英语研究真的好吗？

（在上面的地图中，一个绿色圆圈便代表一种本土语言。世界上大多数语言的使用集中分布在亚洲、非洲、太平洋地区和美洲地区。）

在过去的几年里，NLP的许多任务取得了振奋人心的进步，但大多数成果只是局限于英语和其他少数几门使用较广泛、数据资源丰富的语言，如中文、日语、法语等。作者Sebastian Ruder回顾2019年ACL网站上关于无监督跨语言表示学习（Unsupervised Cross-lingual Representation Learning）的发文，然后基于线上所能获取的无标注数据和标注数据，总结出一个语言数据资源等级体系。这个体系与2020年由来自微软研究院的Pratik Joshi等人共同发表在ACL上的一篇论文“The State and Fate of Linguistic Diversity and Inclusion in the NLP World”里所提到的分类法相似，如下图所示：雷锋网

NLP如此钟情英语研究真的好吗？

（这是Joshi等人归纳的语言资源分布图。圆圈的大小和颜色分别表示一个语系下的语言数量和使用者数量。根据VIBGYOR光谱的排列顺序：紫色（Violet）–靛蓝（Indigo）–蓝色（Blue）–绿色（Green）–黄色（Yellow）–橙色（Orange）–红色（Red），颜色从左到右（从紫色到红色）表示语言使用者数量递增。）

从上图中，我们可以看到，当下NLP文献对分布在最右边的、拥有大量标注数据和未标注数据的第5类语言（红色）和第4类语言（橙色）有充分研究。相比之下，NLP对其他组别的语言研究十分有限。在本文中，作者将从社会、语言、机器学习、文化规范以及认知等视角论证NLP为何需要钻研英语以外的其他语言。雷锋网(公众号：雷锋网)

1、社会方面

如果NLP仅适用于单一标准口音的英语使用者，那么这门技术便难以普及。

一个人所使用的语言决定了其获取信息、接受教育和建立人际关系的途径。虽然我们会想当然地以为互联网面向所有人，但在现实生活中，我们不难发现：互联网资讯显示的语言仅几百种（连全世界语言种类的15%都不到），主要面向主流语言使用者，这些网民也主要来自西方国家；相比之下，其他小众语言使用者能接触到的数字信息非常有限。

随着越来越多门语言出现在聊天app与社交媒体中，主流语言与小众语言的差距体现在技术的方方面面：从基础层面看，数据资源匮乏的语言连一个辅助输入的键盘都没有，更别提检查错误；从更高层面看，NLP的算法偏向于口音标准的英语使用者，对其他语言使用者和口音不“正宗”的英语使用者则表示出一种“歧视”。

算法“偏心”是一个不可忽视的问题。现有许多NLP研究将数据资源丰富的语言（如英语）作为自然语言的同义词，导致NLP模型处理许多相关语言子分支（linguistic subcommunities）、方言和口音时效果较差。Jauhiain在2018年发表的论文“Automatic Language Identification in Texts: A Survey”里提到，事实上，语言与语言之间的分界线比我们现在划分的要模糊，对相似的语言和方言的识别仍然是一个极具挑战的难题。比方说，虽然意大利语是意大利的官方语言，但整个意大利所使用的语言和方言大约有34种。

技术包容性的持续缺失不仅会加剧主流语言与小众语言之间的鸿沟，还可能迫使小众语言的使用者放弃原有语言的学习，转而学习使用较广泛的、技术支持条件更好的语言（如英语），进一步危及了语言的多样性。我们应将NLP模型应用于英语以外的其他语言，以确保非英语使用者能跟上时代，消除当下NLP领域的语言不平衡现象，以及减少语言和读写障碍。

2、语言方面

虽然我们声称要开发通用语言理解方法，但目前我们的方法总体上仅适用于一门语言，即英语。

世界上少数几种数据资源丰富的语言（包括英语）在很多方面都不能代表其他语言。许多资源丰富的语言都属于印欧语系，主要在西方国家使用，词法匮乏。比方说，信息表达大体上遵循严格的句法结构，句子结构有固定的单词顺序、使用多个词义独立的单词，而不是从单词本身的变化来实现信息传递。

这个问题可以通过观察不同语言的类型特征来获得更全面的了解。《世界语言结构图集》(Wolrd Atlas of Language Structure）归纳了192种类型特征，包括语言的结构和语义特征等。比方说，有一种类型特征描述了一门语言中主语、宾语和动词的典型顺序。每个特征平均有5.93个类别。48%的特征分类仅存在于上文图表中0–2组的小众语言中，不适用于3-5组的主流语言。忽略数量如此大的类别特征，意味着现有NLP模型可能会错失那些有助于提升模型泛化能力的宝贵信息。

钻研英语以外的其他语言也许会帮助我们建立对不同语言之间的关系的全新了解。此外，在这个过程中，我们还能了解在建立NLP模型时需要捕获的语言特征。具体而言，就是你可以运用你对一门特定语言的了解，探究这门语言与英语在变音符号的使用、复合词、词尾的屈折变化、派生词、重叠词、沾着语、溶合法等等方面的不同之处。

3、机器学习方面

我们所编码的模型架构反映了我们的假设，而这些模型架构往往是基于我们所打算应用的数据而来。虽然我们希望设计出能通用于其他语言的模型，但当下NLP模型的许多归纳偏差（inductive biases）仅适用于英语及与之类似的语言。

某些模型中缺乏明确编码信息，但这并不代表这些信息是与语言无关的。一个典型例子是N-Gram语言模型，对于词法复杂、词序相对灵活的语言来说，它的表现会差得多。

同样地，神经网络模型常常会忽略形态丰富的语言的复杂性：基于子词的分词方法（Subword tokenization）在具有重叠词的语言上表现不佳，字节对编码（Byte Pair Encoding, BPE）与形态学的配合也较差，语言模型也不擅长处理词汇量较大的语言。语法、单词顺序和句法构造的差异也会给神经模型造成问题。除此之外，我们通常假设预训练的嵌入很容易对所有相关信息进行编码，但这并不适用于所有语言。

上述问题在单词与句子方面给建模结构带来了独特挑战，包括多方向处理稀疏性（sparsity）、少样本学习（few-shot learning）、以预训练的形式对相关信息进行编码，以及在相关语言间进行转换等。现有模型尚无法解决以上难题，因此我们需要一套新的语言感知方法。

新近NLP模型在英语方面应用了具有成千上百万示例的标注和未标注数据集，在越来越难的基准任务上与人类的表现几乎不相上下。同时，NLP研究已过度适应了英语语言数据的特征和条件。尤其是因为过度关注数据资源丰富的语言，我们趋于优先选择在大量标注和未标注数据可用的条件下运行良好的研究方法。

这些方法在处理大多数小众语言时，由于数据资源的匮乏，往往会出现“瘫痪”状态。即便是最近预训练语言模型有望大幅降低下游任务的样本复杂性，但这也需要大量干净的、无标注数据，但世界上大部分语言都没有大量无标注数据。因此，能否良好处理少量数据成为测试当前NLP模型局限性的一个理想条件，评估数据资源匮乏的语言无疑能产生影响深远的、真实的应用。

4、文化与规范方面

模型训练所使用的数据不仅展示了特定语言的特征，还诠释了一定的文化规范和常识。

然而，在不同文化里，一些常识也可能有所不同。例如，“免费”商品指的是任何人都可以在未经许可的情况下使用的商品（如餐馆里的盐），但“免费”和“非免费”的概念在不同的文化中也会有不同的表现。不同文化里对禁忌话题的定义略有不同，甚至对相对权力和社交距离的评估也有一些差异。另外，许多现实情景（如COPA数据集所包含的情景）与许多直接经验并不匹配，也没能将许多众所周知的背景知识平等地反映出来。

因此，仅接触主要源自西方国家的英语数据的智能体也许能与来自西方国家的谈话者进行合理交谈，但与来自不同文化背景的人交谈时则可能出现沟通障碍。

除了文化规范和常识知识以外，我们训练模型所依据的数据还反映了潜在社会的价值。作为NLP研究人员或从业人员，我们必须询问自己：我们是否希望我们的NLP系统排他地传递特定某个国家或语言社区的价值观。

虽然这个问题对于当前主要处理诸如文本分类之类的简单任务的NLP系统而言并不那么重要，但随着系统变得越来越智能、并需要处理复杂的决策任务，该问题的决定将变得越来越重要。

5、认知方面

人类幼童能够学习任何自然语言，而且他们的语言理解能力还能应用于各种语言。为了获取人类级别的语言理解能力，NLP模型应该有理解不同语言派系和类型的能力。

NLP模型最终应能学习不局限于任何一种语言结构、还能泛化到特征不同的语言的抽象概念。

6、解决之道

1）建立数据集

如果要创建一个新的数据集，应该预留出一半注解用于创建另一门语言的大小相同的数据集。

2）评估

如果您对某项特定任务感兴趣，可以考虑用不同语言在同一个任务上进行模型评估。

3）Bender Rule

标明你所研究的语言。

4）假设

明确说明你的模型所使用的信号及其作出的假设。想好哪门语言是你特地学的，哪门语言是笼统学习的。

5）语言多样性

估算你正在研究的语言样本的多样性。

6）研究

钻研那些能解决数据资源匮乏的语言难题的方法。