Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对

　　作者：camel

　　雷锋网 AI 科技评论按：当前自然语言处理中的大多数方法都是数据驱动的，大多数多语言模型（特别是神经机器翻译系统）都需要并行语料库进行训练。大多数的并行文本都只是适用于几个主要语言（例如英语、汉语），且限制于特定的领域。

　　为了解决这一问题，在去年七月份，Facebook 曾发布了第一个系统处理 Wikipedia 上所有语言（包括资源贫乏的语言和方言）的数据集 WikiMatrix，大约包含了亿级的并行语料，覆盖 1620 种语言对。

　　据雷锋网 AI 科技评论了解，最近 Facebook 基于新的方法和数据源，开发并开源了一个目前为止最大的并行语料数据集 CCMatrix。这个数据集包含 45 亿并行语料（是 WikiMatrix 的近 50 倍），覆盖 576 种语言对。

　　论文：https://arxiv.org/abs/1911.04944

　　数据集开源地址：https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix

　　语料库构建

　　首先，从语料来源上讲。目前有几个公共的多语言并行语料库，主要来自一些国际会议（如 European Parliament 、the United Nations）的语料，这些都是专业的人工翻译语料，使用语言较为正式，且仅限于政治主题。此外也有几个依靠志愿者翻译而形成的语料库，例如 news commentary 、Opensub- Titles 、the TED corpus 等。2019 年 Facebook 的 Schwenk 等人曾利用 Wikipedia 中的语料进行挖掘，从而开发了 WikiMatrix 数据集。

　　以上这些，从数据来源上讲都有局限。为了使并行语料库量大、覆盖主题广泛，Facebook 在 CCMatrix 这项工作中，选择使用了随机抓取 web 中的数据作为并行语料的来源，他们每个月随机发送 url，从而获得包含各种语言的网页快照（TB 级）。

十次快照语料中，不同语言的单句数量（其中一次快照只包含英语）

　　然后通过预处理去除高达 70% 的重复数据（例如模板文件、导航菜单、cookie 等），并使用 fastText（语言识别器，可以识别 176 种语言）来识别文档中的语言，最后使用一个在 Wikipedia 上训练的模型来过滤掉低质量的内容，只保留较低困惑度的文档。如此处理获得一个包含有 327 亿个句子的 CCNet 数据集。

　　在这项工作中，使用的挖掘方法的底层思想是，首先学习一种多语言的语义嵌入，即在一个嵌入空间中语义上相似的句子会有较近的距离，而与它们所使用的语言无关。这意味着空间中的距离可以作为两个句子是否是相互翻译的指标。

用于大规模训练多语言句嵌入的框架