Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 Amazon EMR Hadoop Hive 进行大数据处理。我的日志文件中的当前数据为 CSV 格式。为了从日志文件中创建表,我编写了正则表达式来解析数据并存储到外部表的不同列中。我知道 SerDe 可用于读取 JSON 格式的数据,这意味着每个日志文件行都可以作为 JSON 对象。如果我的日志文件是 JSON 格式比较 CSV 格式,是否有任何 Hadoop 性能优势。
如果您可以处理表的输出(您使用正则表达式创建的),为什么还要进行其他处理?尽量避免不必要的东西。
我认为这里的主要问题是哪种格式的阅读速度更快。我相信 CSV 将提供比 JSON 更好的速度,但不要相信我的话。Hadoop 真的不在乎。对他来说,这都是字节数组,一次在内存中。