斯坦福大学的研究人员开发了一种新的人工智能 (AI) 基准来理解大型语言模型 (LLM)。
人工智能以基准为导向。 他们描述了应该指导 AI 社区的理想和目标。 当它们得到适当的开发和分析时,它们可以让社区更好地理解和影响人工智能技术。 近年来,人工智能技术在基础模型方面最为先进。 语言模型的引入突出了这一点。 语言模型基本上是一个接受和生成文本的盒子。 这些模型可以使用大量数据进行训练,以针对各种下游场景对其进行自定义(例如提示或微调)。 关于该模型的功能、局限性和威胁,还有很多需要了解的地方。 由于它们的快速增长、重要性增加和理解有限,他们必须从整体上对语言模型进行基准测试。 在全球范围内评估语言模型意味着什么?
语言模型是具有通用目的的文本界面,可以在不同情况下使用。 对于每个场景,可能有一个需求列表。 例如,模型应该是准确的、有弹性的和公平的。 不同愿望的相对重要性可以由情况、一个人的理想和他们的观点来决定。 他们认为整体评估由三个部分组成:
来源和详细信息: