Yandex 开源 YaLM 100B

导读	俄罗斯搜索巨头 Yandex 发布了 YaLM 100B ，它是一个利用了 1000 亿个参数、类似 GPT 的神经网络，用于生成和处理文本。目前该模型基于 Apache 2.0 许可托管在 GitHub 上。

Yandex 花了 65 天的时间在包含 800 个 A100 显卡和 1.7 TB 在线文本、书籍和无数其他资源的池中训练了模型。YaLM 高级开发人员 Mikhail Khrushchev 在 Medium 上发布了一篇博客，详细介绍了训练该模型的经验，包含如何加速模型训练、如何处理分歧等技术细节。但该公告似乎非常关注参数数量和训练模型的工程挑战，对该模型的训练（学习率计划等）或性能数据没有任何披露。

有网友推测该 YaLM 100B 模型的性能基本上介于 GPT-2 和 GPT-3 之间，而 Yandex 之所以要训练这样一个大型预训练语言模型，是因为他们需要一个能够同时理解俄语和英语的模型，而 GPT-2 和 3 都只能理解英语。

另外，训练这样的模型需要的花销也不便宜，800 个 A100 显卡 + 65 天训练时间，以 AWS“p4d.24xlarge” 实例（8×40GB A100）为例，其价格为 32.7726 美元 / 小时，800 个 GPU 则需要 3277.26 美元 / 小时，训练 65 天为 5,112,525.60 美元，这只是粗略的计算价格，还没有考虑存储和网络成本。

此外，虽然模型已经过训练，如果想要运行它仍需要 200GB 的可用磁盘空间，且应该在具有张量并行性的多个 GPU 上运行。更多技术细节可查看 Medium（英语）和 Habr（俄语）的文章。

原文来自：https://www.oschina.net/news/200614/yandex-open-sources-yalm-100b-gpt-like-model

本文地址：https://www.linuxprobe.com/yandex-yalm-linux.html编辑：倪家兴，审核员：清蒸github

Linux 命令大全：https://www.linuxcool.com/

Linux系统大全：https://www.linuxdown.com/

红帽认证RHCE考试心得：https://www.rhce.net/

Yandex 开源 YaLM 100B

为您推荐一些与本文相关的文章：