花瓣：通过设备上卸载释放 100B+ 语言模型的力量

遇见 Petals，一个开源人工智能系统，可以在家里运行 100B+ 语言模型 BT 风格

NLP 社区的最新发现表明，语言模型只需稍作调整或辅助即可用于执行现实世界的任务。性能通常会随着大小的增加而提高。包含数千亿参数的现代语言模型的趋势仍在继续。许多研究小组已经发布了包含超过 100B 参数的 LLM。 BLOOM 模型拥有 1760 亿个参数，支持 46 种计算机和 13 种自然语言，由 BigScience 项目提供。 100B+参数模型的可用性更容易获得，但由于内存和计算成本，许多学者和从业者发现它很难使用。 OPT-175B、BLOOM 176B 和 OPT-172B 都需要至少 350GB 的加速器内存和更多的微调。

为了运行这些 LLM，您将需要几个强大的 GPU 和/或多节点集群。这两种方案的成本相对较低，限制了语言模型的研究课题和应用。最近的努力试图通过将模型参数“卸载”到更慢但更便宜的内存中来使 LLM 民主化。然后他们在加速器上逐层执行它们。这种技术允许通过加载低端加速器来执行 LLM 每次前向传递之前的参数。卸载是一个高延迟过程，但它可以一次处理多个令牌。他们使用 BLOOM-176B 生成一个令牌，最快的 RAM 系统至少需要 5.5 秒，而最快的 RAM 系统至少需要 22 秒最快的 SSD 卸载安排。

许多机器没有足够的 RAM 来卸载 175B 参数。公共推理 API 可以使 LLM 更易于访问。一方托管模型，其他方可以查询它。这是一个简单的选择，因为 API 所有者完成了大部分工作。 API 对于研究来说可能过于死板，因为它们无法改变模型的内部状态或控制结构。当前的 API 还可能使某些研究项目的成本过高。在这项研究中，他们探索了一种不同的方法，这种方法受到广泛的神经网络众包的启发。

来源和详细信息：

Meet Petals: An Open-Source Artificial Intelligence (AI) System That Can Run 100B+ Language Models At Home Bit-Torrent Style

谷歌AI优化指南

花瓣：通过设备上卸载释放 100B+ 语言模型的力量

发表回复取消回复

发表回复 取消回复

发表回复取消回复