Meta 推出“郁金香”,一种有助于数据模式化的二进制序列化协议

Meta 引入了“郁金香”,一种支持模式演化的二进制序列化协议。 这解决了可靠性问题以及其他问题。 它还可以帮助我们对数据进行图式化。 郁金香支持多种传统格式。 Meta的数据平台使用它,性能和效率都有了显着的提升。 Meta的平台由仓库存储、实时系统和其他数据交换等多项异构服务组成。 他们通过 API 进行通信并共享大量信息。 Meta的数据平台由大量异构服务组成,例如仓库数据存储和交换大量数据的各种实时系统。 模式化是构建 Meta 规模数据平台的关键组成部分。 这些系统的构建基于这样一种理解,即每个决策和权衡都会对可靠性、数据处理效率、性能和工程师开发人员的体验产生影响。 改变数据基础设施的序列化格式是一个冒险的举动,但最终会得到回报。

数据分析日志库是元网络层的一部分,也是内部服务,负责分析和操作数据的日志记录。 它使用 Scribe——一种持久的消息队列系统。 使用 Scribe 读取和摄取数据。 这还包括平台和实时系统的摄取服务。 数据分析库用于将数据反序列化和再水化为结构化有效负载。 Meta 工程师每月创建、更新和删除日志记录模式。 流过 Scribe 的数据以 PB 为单位。

模式化确保在未来、过去或现在记录的消息(取决于使用的序列化程序版本)可以随时可靠地(反)序列化而不会丢失数据。 此特性称为通过向后和向前兼容性进行的安全模式演化。 本文重点介绍用于对数据进行编码以供数据平台进行最终处理的在线序列化格式。 新的序列化格式比以前的格式 Hive Text Delimited 或 JSON Serialization 更有效。 它需要减少 40% 到 85% 的字节数和 50% 到 90% 的 CPU 周期来(反)序列化数据。

来源和详细信息:

Meta Introduces ‘Tulip,’ A Binary Serialization Protocol That Assists With Data Schematization By Addressing Protocol Reliability For AI And Machine Learning Workloads

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注