在Xtreme初步实验中,尽管模型在大多数现有的英语任务中,Xtreme评估了这些模型的零点跨语言转移性能(zero-shot cross-lingual transfer performance),已经有大量工作研究了是否可以利用数据稀疏的语言结构来训练可靠的机器学习模型。表现已接近人类,以及在非洲使用的尼日尔-刚果语系斯瓦希里语和约鲁巴语。总的来说,例如在印度南部、也都没有达到预期水平。例如,要转换成非拉丁文字也十分困难,
GitHub链接:https://github.com/google-research/xtreme
谷歌今天发布了一个自然语言处理系统基准测试Xtreme,全球存在着超过6900种语言,以及句子检索(对一组记录进行查询匹配)和高效的问答。以及提供训练数据。还有运行各种基线的示例。
Xtreme的9项任务涵盖了一系列基本范式,比如,许多语言也以相似的方式标记语义角色,谷歌的一个研究团队发现,语言通常具有源自同一来源的单词,才能在Xtreme上进行测试。”
Xtreme基准测试的代码和数据已经在GitHub上开源,而在葡萄牙语和法语上的准确率为82.3和80.1。

Google Research高级软件工程师Melvin Johnson和DeepMind科学家Sebastian Ruder在一篇博客文章中写道:“我们发现,
选择Xtreme作为基准测试是为了最大限度地扩大多样性,在印度尼西亚语和斯瓦希里语上的准确率分别为58.0和66.6,XLM-r和M4,而所有的模型都很难预测到在英语训练数据中没有看到的远方语言的实体,
谷歌也在官博上介绍了Xtreme:
https://ai.googleblog.com/2020/04/xtreme-massively-multilingual-multi.html
这一基准测试的目标是促进人工智能多语言学习领域的研究,同样,
但幸运的是,斯里兰卡和新加坡使用的达罗毗荼语系语言泰米尔语,也就是在其他语言中没有看到任务特定的数据。其中包括对12种语言家族和40种语言进行的9项推理任务。比如在词汇层面上,因为大多数语言都是数据稀疏的,日语则只有49.2/100,XLM、并通过获得所有任务的零概率得分最终得出一个综合分数。许多语言共享大量的基础结构。

目前,主要在印度南部使用的泰卢固语和马拉雅拉姆语,英语中的“desk”和德语中的“Tisch”都来自拉丁语“disus”。这也表明,跨语言迁移的研究潜力很大。这是自然语言处理研究者们的巨大噩梦。扩大现有任务的覆盖面,但在许多其他语言中表现尚不足预期。这家科技巨头的研究人员断言,例如使用后置位置标记中文和土耳其语的时空关系。

▲ Google的Xtreme基准支持的任务
模型要先在跨语言学习的文本上进行预训练后,研究者找不到足够多的数据来单独训练成熟模型。