40种语言、9项推理任务，谷歌发布新的NLP基准测试XTREME

作者 | 蒋宝尚

编辑 | 贾伟

全世界约有6900种语言，但大多数并没有英语这种数据规模，这也导致大多数的NLP基准仅限于英文任务，这大大制约了自然语言处理的多语言发展。

从语言学的角度，值得注意的一点是，不同语言或许有相同的来源，例如英语的“desk”和德语的“ Tisch”都来自拉丁语“ discus”。

如何利用语言之间的这种“共享结构”来克服数据不足问题，是当前学术界尝试多语言研究的方向之一。
近日，谷歌联合CMU、DeepMind推出的《XTREME：评估跨语言泛化的大规模、多语言、多任务基准》（XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization）极大的鼓励了多语言研究。

40种语言、9项推理任务，谷歌发布新的NLP基准测试XTREME

（雷锋网）
这篇研究涵盖了40种类型多样的语言（涵盖12种语系），还包括9项需要共同对不同级别的句法或语义进行推理的任务。

XTREME设计原则

正如谷歌论文的标题，XTREME是一个基准，用来评估跨语言迁移学习的好坏，在多样化和具有代表性的任务和语言上，其选择构成基准的任务和语言主要考虑的原则包括：任务的难度、任务的多样性、以及训练的效率、多语言性、充足的单语数据等等。

1、任务难度足够有挑战性，使得跨语言的表现低于人的表现；
2、任务应该要求语言模型在不同的层次上传递不同的意义，例如，分类任务需要句子级的意义转移，而序列标记任务，如语音部分（POS）标记或命名实体识别（NER）则需要测试模型在词级的意义转移能力；
3、考虑到资源有限，任务要求在一个GPU上就能够训练，而且训练时间不能超过一天；
4、首先考虑涵盖多语言和语系的任务；
5、任务的使用是获得许可的，能够允许用于研究，以及以此为目的数据再分配。

XTREME任务一览

40种语言、9项推理任务，谷歌发布新的NLP基准测试XTREME

（雷锋网(公众号：雷锋网)）

XTREME包含9个任务，共有4个类别，可以在不同的意义层次上进行推理。任务概述如上表所示。

XNLI：FAIR 和纽约大学合作开发，作为一个新的自然语言推断语料库，其将MultiNLI 的测试集和开发集扩展到 15 种语言，包括斯瓦西里语和乌尔都语等低资源语言。

PAWS-X：是在 PAWS 数据集基础上, 扩展了包含另外6 种不同类型语言的释义识别对抗性数据集, 支持语言包括: 法语、西班牙语、德语、汉语、日语和韩语。PAWS-X 数据集则包含23 659组由人工判断而得的PAWS 扩展句子对, 以及296 406 组由机器翻译的训练对。

POS：作者使用了通用依存关系中数据库中的POS标签数据，并使用英语训练数据进行训练，并在目标语言的测试集上进行了评估。

NER：对于NER，作者使用了Wikiann数据集，并用知识库属性、跨语言、锚链接、自我训练和数据选择相结合的方法，对维基百科中的命名实体进行了IOB2格式的LOC、PER和ORG标签的自动注释。

XQuAD：是一个更全面的跨语言基准测试，包括由专业翻译人员翻译成十种语言的240段和1190对问题回答。

MLQA：这是一个类似于XQuAD的多语言问题回答数据集，能够用于评估跨语言问答性能的基准。其由SQuAD格式的超过5K提取QA实例（英语为12K）组成，使用7种语言-英语，阿拉伯语，德语，西班牙语，北印度语，越南语和简体中文。

40种语言、9项推理任务，谷歌发布新的NLP基准测试XTREME

（雷锋网）XTREME基准测试中支持的任务

TyDiQA-GoldP：TyDiQA是一个涵盖了 11 种不同类型语言的问答语料库，TyDiQA-GoldP是其简化版，并排除了一些无法回答的问题。它类似于XQuAD和MLQA，但比这两个分别少了三倍和两倍的的词法重叠度。另外，作者使用使用英语训练数据在目标语言的测试集上进行训练和评估。

BUCC：该数据集为每种语言提供了训练和测试分词，为了简化，作者直接对测试集上的表征进行评估，没有进行微调，但使用了余弦相似度公式计算相似度。

Tatoeba：该数据集包含了多达1000个覆盖122种语言的英语句子对，在该数据集上，作者使用余弦相似度找到近邻（ nearest neighbour），并计算错误率。

综上，XTREME中包含的任务涵盖了一系列范式，包括句子分类，结构化预测，句子检索和问题解答。

评估

由于英语是多语言表征中最常用的评估设置，并且多数任务中仅有英语训练数据，所以谷歌在评估设置上采用英语作为源语言的zero-shot跨语言迁移。虽然英语并非所有目标语言的跨语言迁移的最佳源语言，但这是目前实践中最拥有的设置。

为了使用XTREME评估模型性能，首先需要使用引起跨语言学习的目标语言在多语言文本上对模型进行预训练，接着在指定任务的英语数据上对模型进行微调。随后，XTREME 在目标语言上评估模型的zero-shot跨语言迁移性能。

下图展示了从预训练到微调再到zero-shot迁移的三大流程：

40种语言、9项推理任务，谷歌发布新的NLP基准测试XTREME

模型的跨语言迁移学习过程：1、针对多语言文本的预训练；2、使用英语对下游任务进行微调；3、使用 XTREME 进行 zero-shot 评估。

实践中，这种zero-shot设置的好处之一是能够提升计算效率，即预训练模型仅需要针对每个任务在英语数据上进行微调，便可以在其他语言上直接进行评估。

针对在其他语言中也有标注数据的任务，作者也比较了模型在这些语言上进行微调后的性能，最终获得了 9 个XTREME任务的zero-shot得分，得出了综合分数。

在基准测试方面，谷歌研究者选择几种当前最先进的多语言模型进行试验，包括多语言BERT 模型（mBERT），多语言BERT 模型的大型版本XLM和XLM-R 以及大型多语言机器翻译模型 M4。这些模型的共同特点，就是它们已经在来自不同语言的大量数据上进行了预训练。

在方法上，主要采用的是通过自监督或借助译文来学习多语言表征。

40种语言、9项推理任务，谷歌发布新的NLP基准测试XTREME

图注：基于翻译的基准对句子检索没有意义。在有目标语言训练数据的情况下，作者提供了语言内基准。

实验结果如上图所示，XLMR是表现最好的模型，总体上比mBERT有明显的改进，但是在结构化预测任务上的改进较小。MMTE在大多数任务上的性能与mBERT相当，在XNLI、POS和BUCC上的性能更强。

对于有语内训练数据（ in-language training data）的任务，使用语内数据训练的多语言模型要优于zero-shot迁移模型。但是，只要有更多的英语样本，zero-shot迁移模型就会好于只训练了1000个复杂QA任务的语言内示例的多语言模型。

对于结构化预测任务，1,000个语内实例能使模型达到与在完整的标签化数据集上训练的性能。

最后，在Translate-train和In-language设置上的多任务学习一般都比单一语言训练有所改善。

对于一些有代表性的模型，作者研究了跨语言转移差距，即在英语测试集上的表现与所有其他语言之间的差距。

40种语言、9项推理任务，谷歌发布新的NLP基准测试XTREME 如上图所示，虽然在XQuAD和MLQA等具有挑战性的任务上，XLM-R等强大的模型与mBERT相比，可以显著缩小差距，但它们在句法结构化预测任务上的影响不尽相同。

在分类任务上，转移学习的差距最小，说明在这些任务上的进步空间可能较小。

机器翻译的使用虽然缩小了所有任务之间的差距。总体而言，所有方法都存在很大的差距，这表明跨语言迁移工作的潜力很大。

分析

作者进行了一系列的分析，研究了当前能够达到SOTA的跨语言模型的局限性。具体分析包括五个部分：

40种语言、9项推理任务，谷歌发布新的NLP基准测试XTREME

图注：XLM-R在XTREME任务中所有语言在各个任务中的表现概述

最佳zero-shot模式分析：如上图所示，这部分主要说明为什么在不同的任务和语言中评估通用的多语言表征非常重要。

40种语言、9项推理任务，谷歌发布新的NLP基准测试XTREME

与训练前数据大小的相关性：如上图模型性能与各语言中维基百科文章数量的皮尔森相关系数ρ，表明除了结构化预测任务的任务外，多数任务的相关系数都很高。这意味着当前的模型无法充分利用从预训练数据中提取的信息来转移到句法任务。

40种语言、9项推理任务，谷歌发布新的NLP基准测试XTREME
语言特点分析：如上图，根据不同语系和编写脚本分析结果。对于mBERT，印欧语系的分支(如日耳曼语、罗曼语和斯拉夫语)的迁移性能最佳。相比之下，尼日尔-刚果和克拉-傣语等低资源语系的跨语言迁移表现仍然较低。另外，不同的流行脚本，如拉丁文和表意文字，在句法任务上的表现是不同的。

跨语言的错误：因为对于其他测试集是从英语翻译过来的XNLI和XQuAD，这部分作者分析了这些方法在源语言和目标语言中是否会犯同样类型的错误。更为具体一些是探讨了英语中正确和错误预测的例子是否在其他语言中被正确预测。结果是在XNLI和XQuAD数据集上有不同答案。

推广到不可见的标签组合和实体：这部分主要分析了结构化预测任务迁移不成功的原因。结论是该模型可能难以推广到更具目标语言特征的实体。

雷锋网原创文章，未经授权禁止转载。详情见转载须知。

（完）