DeepMind 的研究人员创建了一个具有 70B 参数的语言模型,该模型生成与具有不同观点的人类一致的语句

人类的偏好发生了变化。 很难提出一个大多数人都同意的声明。 专注于人工智能的公司 DeepMind 的研究人员接受了这一挑战。 他们训练并调整了一个大型语言模型。 为了建立模型,他们必须假设人类偏好是同质和静态的。

该模型生成的陈述可以最大限度地获得具有不同偏好的群体的认可。 研究人员团队微调了一个 700 亿参数模型,该模型由一千个道德和政治问题提供,并带有人类书面答案。 然后训练了一个奖励模型来权衡不同的意见。 最好的模型获得了超过 65% 的偏好率。

当他们只提供来自该组的一部分响应时,发现该模型存在显着差异。 每个共识的个人贡献同样重要。 这个 LLM 建立在许多复杂的 NLP 任务的基础上,例如阅读理解、流利生成等。

来源和详细信息:

Researchers at DeepMind Created a 70B Parameter Language Model that Generates Statements Aligned with Humans with Diverse Viewpoints

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注