Pathways 语言模型:扩展多达 5400 亿个参数以获得突破性性能
近年来,经过训练以理解和生成语言的大型神经网络网络在各种任务中都取得了令人瞩目的成果。 GPT-3 率先证明大型语言模型可用于少样本学习,并取得了令人印象深刻的结果,而无需针对特定任务进行大规模数据收集或更新模型参数。 GLaM 和 LaMDA 等 LLM 在很多任务上都取得了最好的 few-shot 学习效果。 他们通过增加模型大小、稀疏地激活模块和使用更大的数据集来做到这一点。 随着我们继续推动模型的极限,为了充分理解小样本学习的能力,还有很多工作要做。
Google Research 去年发布了 Pathways 愿景,这是一种高效且可以跨任务和领域推广的模型。 为加速器编排分布式计算的 Pathways 系统的开发是实现这一愿景的重要里程碑。 我们在“PaLM Scaling Language Modeling With Pathways”中介绍了 Pathways Language Model,这是一个具有 5400 亿个参数的 Transformer 模型,只有密集解码器,使用 Pathways 系统进行训练。 该模型使我们能够跨多个 TPUv4 pod 高效地训练模型。 PaLM 在数百个语言生成和理解任务上进行了评估。 在大多数情况下,它实现了最先进的性能,通常有很大的优势。
来源和详细信息:
https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html