我有一个关于 HDFS 读/写过程的问题:
假设我们有一个客户端(为了示例,假设客户端是一个 HADOOP 映射进程)请求从 HDFS 读取文件或将文件写入 HDFS,这是实际执行读取的进程/写入/写入HDFS?
我知道 Namenode 有一个进程,每个 Datanode 都有一个进程,它们对系统的一般职责是什么,但我在这种情况下感到困惑。
是客户端的进程本身还是 HDFS 中有另一个进程,创建并专用于这个特定的客户端,以便访问和读/写 HDFS?
最后,如果第二个答案是真的,那这个过程有没有可能暂停一段时间呢?
我做了一些研究,发现最重要的解决方案是来自 hadoop API的Oozie和JobControl类。
但是,因为我不确定上述工作流程,所以我不确定我正在使用这些工具暂停和恢复哪个流程。
是客户端的进程还是在 HDFS 中运行以服务客户端请求的进程?