我已经准备好 hadoop 实现的所有部分——我有一个正在运行的集群,以及一个将活动数据推送到 HDFS 的客户端编写器。我有一个关于接下来会发生什么的问题。我了解我们针对已转储到 HDFS 中的数据运行作业,但我的问题是:
1)首先,我正在写入流并定期刷新 - 我正在通过 HDFS java 客户端中的线程写入文件,并且在我终止服务器之前我看不到文件出现在 HDFS 中。如果我写入足够的数据来填充一个块,它会自动出现在文件系统中吗?我如何才能拥有准备好由 M/R 作业处理的文件?
2) 我们什么时候运行 M/R 作业?就像我说的,我正在通过 HDFS java 客户端中的一个线程写入文件,并且该线程对文件进行了锁定以进行写入。我应该在什么时候发布该文件?这种互动如何运作?在什么时候针对该数据运行作业是“安全的”,以及在 HDFS 中的数据完成后会发生什么?