0

Aa 就水槽文档而言,我们可以根据事件大小或事件计数或持续时间将数据移动到 HDFS 中。有没有办法将整个文件从假脱机目录移动到 HDFS 作为单个文件

Example 
Spooling Dir             HDFS
file1 - 1000 event ----> file1-1000 event
file2 - 1008 event ----> file2 - 1008 event
file3 - 800 event  ----> file3 - 800 event 

谢谢。

4

1 回答 1

0

嗯,有点。您需要调整配置以反映这一点,因为水槽并非旨在推动整个文件而不管它们的大小,因为您可以更有效地使用 hadoop fs -copyFromLocal 来做到这一点。

以下是您需要配置的内容列表:

a) 批处理通道大小必须小于文件中事件的大小,以防您只是偶尔假脱机文件。否则您的活动可能会停留在您的频道中。

b) hdfs.rollSize = 0 以确保您的文件在任何大小限制后不会翻转

c) hdfs.rollCount = 0 以确保您的文件在发生任何事件后都不会翻转

d) hdfs.rollInterval 设置为一个可观的数量,以确保您的文件 git 准时假脱机。

e) 一次假脱机一个文件以避免混淆。

基本上就是这样。

于 2015-01-07T13:27:02.410 回答