hadoop - 亚马逊 EMR JSON

Question

我正在使用 Amazon EMR Hadoop Hive 进行大数据处理。我的日志文件中的当前数据为 CSV 格式。为了从日志文件中创建表，我编写了正则表达式来解析数据并存储到外部表的不同列中。我知道 SerDe 可用于读取 JSON 格式的数据，这意味着每个日志文件行都可以作为 JSON 对象。如果我的日志文件是 JSON 格式比较 CSV 格式，是否有任何 Hadoop 性能优势。

score 0 · Accepted Answer

如果您可以处理表的输出（您使用正则表达式创建的），为什么还要进行其他处理？尽量避免不必要的东西。

我认为这里的主要问题是哪种格式的阅读速度更快。我相信 CSV 将提供比 JSON 更好的速度，但不要相信我的话。Hadoop 真的不在乎。对他来说，这都是字节数组，一次在内存中。

hadoop - 亚马逊 EMR JSON

1 回答 1

Related

Reference