Hadoop 序列文件相对于 HDFS 平面文件(文本)的优势是什么?序列文件以什么方式有效?
可以将小文件组合并写入序列文件,但也可以对 HDFS 文本文件执行相同的操作。需要知道这两种方式的区别。我已经在谷歌上搜索了一段时间,如果我弄清楚这一点会有所帮助吗?
Hadoop 序列文件相对于 HDFS 平面文件(文本)的优势是什么?序列文件以什么方式有效?
可以将小文件组合并写入序列文件,但也可以对 HDFS 文本文件执行相同的操作。需要知道这两种方式的区别。我已经在谷歌上搜索了一段时间,如果我弄清楚这一点会有所帮助吗?
Hadoop序列文件的优点(根据网站上Siva
的文章hadooptutorial.info
)
缺点:
序列文件是 MapReduce 处理的 mapper 和 reducer 阶段生成的中间文件。序列文件是可压缩的并且处理速度很快,它用于在映射器和减速器期间从它写入输出。Hadoop 和 Spark 中有 API 可以读取/写入序列文件