我对小文件和 HDFS 有疑问。
场景:我正在使用 NiFi 读取来自 Kafka 主题的消息,这些都非常小。
要求:将这些原始数据消息存储在 HDFS 中(用于重播能力)......在对它们进行进一步处理之前。
我正在考虑定期在它们上使用 Hadoop Archive (HAR)。那是我可以通过 NiFi 做的事情吗?har 命令似乎是一个命令行的东西,而不是我可以通过 Nifi 执行的东西?很想知道一个可以满足我要求的解决方案,而不会因为小文件而降低 HDFS。
吉尼尔
我对小文件和 HDFS 有疑问。
场景:我正在使用 NiFi 读取来自 Kafka 主题的消息,这些都非常小。
要求:将这些原始数据消息存储在 HDFS 中(用于重播能力)......在对它们进行进一步处理之前。
我正在考虑定期在它们上使用 Hadoop Archive (HAR)。那是我可以通过 NiFi 做的事情吗?har 命令似乎是一个命令行的东西,而不是我可以通过 Nifi 执行的东西?很想知道一个可以满足我要求的解决方案,而不会因为小文件而降低 HDFS。
吉尼尔