Meta AI 团队开源名为 Massively Multilingual Speech 的 AI 模型

导读	Meta AI 团队宣布开源了一个名为 Massively Multilingual Speech (MMS) 的 AI 模型，声称可以识别 4000 多种语言，比目前已知技术要多 40 倍。以及扩展了文本转语音和语音转文本技术的涵盖范围，从大约 100 种语言到 1100 多种。

根据介绍，现有的最大的语音数据集最多只涵盖 100 种语言；因此为了收集数千种语言的音频数据，Meta 使用了一种非常规的方法 —— 宗教文本录音。“我们转向宗教文本（例如《圣经》），这些文本已被翻译成许多不同的语言，并且其翻译已被广泛研究用于基于文本的语言翻译研究。这些译本都有公开录音，记录了人们采用不同语言进行阅读的情景。”

作为 MMS 项目的一部分，Meta 公司的研究人员创建了一个超过 1100 种语言的 New Testament 阅读数据集，每种语言平均提供 32 小时的数据。结合其他各种基督教宗教读物的无标签录音，他们还将模型的可用语言增加到了 4000 多种。

但 Meta 方面声明，此举不会导致模型的偏向性。“虽然这些数据来自特定领域，并且通常由男性阅读；但我们的分析表明，我们的模型在男性和女性声音方面表现同样出色。虽然录音的内容是宗教的，但我们的分析表明，这并不会使模型偏向于产生更多的宗教语言。”

Meta 在 MMS 模型的训练中结合使用了该公司的 “自监督语音表示学习” 模型 wav2vec 2.0，使机器能够在不依赖标记训练数据的情况下进行学习；有了它，就可以在更少的数据上训练语音识别模型。

“我们使用 1B 参数的 wav2vec 2.0 模型对 1100 多种语言进行了多语言语音识别模型的训练。随着语言数量的增加，性能确实下降，但非常轻微：从 61 种语言到 1107 种语言，字符错误率只增加了约 0.4%，但语言覆盖率却增加了 17 倍以上。”

与 OpenAI 的 Whisper 语音识别模型相比，Meta 研究人员发现在 MMS 数据上训练的模型实现了大约一半的单词错误率，但 MMS 涵盖的语言数量是 Whisper 的 11 倍。“这表明，与目前最好的语音模型相比，我们的模型可以表现得非常好。”

不过 Meta 也警告 MMS 存在一些风险，譬如语音转文本模型可能会错误转录选定的单词或短语。"根据输出结果，这可能导致冒犯性和 / 或不准确的语言。我们仍然认为 AI 社区的合作对于 AI 技术负责任的发展至关重要。"

目前，Meta 已经开源了相关的模型和代码，以便研究社区中的其他人可以在此工作基础上进行构建。放眼未来，该公司希望扩大 MMS 的覆盖范围以支持更多语言，并改进其对方言的处理。

原文来自：https://www.oschina.net/news/242331/mate-multilingual-model-speech

本文地址：https://www.linuxprobe.com/meta-linux-massively.html编辑：倪家兴，审核员：清蒸github

Linux 命令大全：https://www.linuxcool.com/

Linux系统大全：https://www.linuxdown.com/

红帽认证RHCE考试心得：https://www.rhce.net/

Meta AI 团队开源名为 Massively Multilingual Speech 的 AI 模型

Meta AI 团队开源名为 Massively Multilingual Speech 的 AI 模型

为您推荐一些与本文相关的文章：