0

我正在使用 Amazon EMR Hadoop Hive 进行大数据处理。我的日志文件中的当前数据为 CSV 格式。为了从日志文件中创建表,我编写了正则表达式来解析数据并存储到外部表的不同列中。我知道 SerDe 可用于读取 JSON 格式的数据,这意味着每个日志文件行都可以作为 JSON 对象。如果我的日志文件是 JSON 格式比较 CSV 格式,是否有任何 Hadoop 性能优势。

4

1 回答 1

0

如果您可以处理表的输出(您使用正则表达式创建的),为什么还要进行其他处理?尽量避免不必要的东西。

我认为这里的主要问题是哪种格式的阅读速度更快。我相信 CSV 将提供比 JSON 更好的速度,但不要相信我的话。Hadoop 真的不在乎。对他来说,这都是字节数组,一次在内存中。

于 2012-08-01T15:44:04.117 回答