6

我很想了解在 Avro 中对两种非常特定类型的数据进行编码的最佳实践:时间戳和 IP 地址。

我遇到了时间戳的开放 JIRA 票(https://issues.apache.org/jira/browse/AVRO-739),但看起来这个话题已经安静了一段时间了。那么 - 在 Avro 中编码时间戳的最佳实践是什么(最好用于 MapReduce、Pig、Hive、流式上下文中的下游使用)。

此外,我很想听听其他人如何将 IP 地址编码到 Avro 中。

4

1 回答 1

1

我对 Avro 中的类型编码有一些经验。就我而言,一个很大的要求是通过 Hive 访问数据。

  • 对于时间戳,我建议使用带有 unix 时间戳的浮点数。大多数其他库都支持这一点,并且与 Hive 一起使用很容易,因为您可以转换为时间戳。

  • 对于 IP 地址,我会使用字符串编码。我认为使用数据时字符串的可读性使其成为最佳类型。如果您有其他要求,例如减小数据大小,那么二进制编码可能更适合您。

于 2014-03-07T12:03:22.470 回答