遇见 Petals,一个开源人工智能系统,可以在家里运行 100B+ 语言模型 BT 风格

NLP 社区的最新发现表明,语言模型只需稍作调整或辅助即可用于执行现实世界的任务。 性能通常会随着大小的增加而提高。 包含数千亿参数的现代语言模型的趋势仍在继续。 许多研究小组已经发布了包含超过 100B 参数的 LLM。 BLOOM 模型拥有 1760 亿个参数,支持 46 种计算机和 13 种自然语言,由 BigScience 项目提供。 100B+参数模型的可用性更容易获得,但由于内存和计算成本,许多学者和从业者发现它很难使用。 OPT-175B、BLOOM 176B 和 OPT-172B 都需要至少 350GB 的加速器内存和更多的微调。

为了运行这些 LLM,您将需要几个强大的 GPU 和/或多节点集群。 这两种方案的成本相对较低,限制了语言模型的研究课题和应用。 最近的努力试图通过将模型参数“卸载”到更慢但更便宜的内存中来使 LLM 民主化。然后他们在加速器上逐层执行它们。这种技术允许通过加载低端加速器来执行 LLM 每次前向传递之前的参数。卸载是一个高延迟过程,但它可以一次处理多个令牌。他们使用 BLOOM-176B 生成一个令牌,最快的 RAM 系统至少需要 5.5 秒,而最快的 RAM 系统至少需要 22 秒 最快的 SSD 卸载安排。

许多机器没有足够的 RAM 来卸载 175B 参数。 公共推理 API 可以使 LLM 更易于访问。 一方托管模型,其他方可以查询它。 这是一个简单的选择,因为 API 所有者完成了大部分工作。 API 对于研究来说可能过于死板,因为它们无法改变模型的内部状态或控制结构。 当前的 API 还可能使某些研究项目的成本过高。 在这项研究中,他们探索了一种不同的方法,这种方法受到广泛的神经网络众包的启发。

来源和详细信息:

Meet Petals: An Open-Source Artificial Intelligence (AI) System That Can Run 100B+ Language Models At Home Bit-Torrent Style

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注