Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个水槽,它将数据流式传输到 HDFS 接收器(附加到同一文件),我可以“cat”并从 HDFS 中看到它。但是,MapReduce 作业只拾取第一批被刷新的 (bacthSize = 100)。其余的没有被捡起,尽管我可以看到其余的。当我在文件滚动(关闭)后执行 MapRecue 作业时,它正在获取所有数据。你知道为什么 MR 作业即使存在,也找不到批次的其余部分。
据我所知,Flume(在我的情况下是 1.4)根本没有真正附加到 HDFS 文件。当 HDFS 接收器启动时,它将创建一个 0 kb 的 .tmp 文件,直到它被滚动/重命名。增量记录尚未在 HDFS 上,而是在通道上的 Flume 代理中。因此,在重命名事件(.tmp 到最终文件名)之前,您将无法访问新到达的数据。(MR FileInputFormat 过滤所有以“_filename”或“.filename”开头的文件)