我对 hadoop 很陌生,所以请原谅愚蠢的问题。
我有以下知识 Hadoop 的最佳用例是大文件,因此在运行 mapreduce 任务时有助于提高效率。
牢记上述内容,我对 Flume NG 感到有些困惑。假设我正在跟踪一个日志文件并且每秒生成一次日志,当日志换行时,它将通过 Flume 传输到 hdfs。
a)这是否意味着水槽在我正在跟踪的日志文件中记录的每一行上创建一个新文件,或者它是否附加到现有的 hdfs 文件?
b)首先允许在hdfs中追加?
c) 如果 b 的答案是真的?即内容不断添加,我应该如何以及何时运行我的 mapreduce 应用程序?
上述问题可能听起来很愚蠢,但同样的答案将不胜感激。
PS:我还没有设置 Flume NG 或 hadoop,只是阅读文章以了解它如何为我的公司增加价值。