hadoop - 通过hadoop访问数据？一步一步的解释

Question

我想了解需要通过 HDFS 访问数据时发生的每一个步骤。我在哪里可以找到 HDFS 上写/读操作的分步说明。

我很清楚名称节点包含文件系统特定元数据这一事实。但我想确切地知道存储在名称节点上的数据是什么。这是我的猜测：当单个数据节点使用它们托管的各个块的块信息更新名称节点时，当它们启动时，名称节点只有文件名（具有完整的目录结构）和数据所在的块号因为该文件存储在。每当读/写进入时，它都会从名称节点写入/读取块编号，并根据名称节点存储在内存中的反向映射接近数据节点（映射由数据节点构建并在它们出现时更新）告诉文件操作哪个块号由哪个数据节点托管，因此它需要向/从哪些数据节点写入/读取信息。这只是一个猜测，希望有人能证实这一点。此外，这是否是映射器从指定为 map reduce 作业的输入的文件中读取的方式，唯一的区别是作业跟踪器可以执行找出数据节点并在相应数据节点上生成映射器的工作？

score 2 · Accepted Answer

我在哪里可以找到 HDFS 上写/读操作的分步说明。

查看此漫画以从 HDFS 读取/写入数据。它不处理 API 级别的详细信息，而是在较高级别进行描述。另外，这篇关于 HDFS 的文章很有趣。

我很清楚名称节点包含文件系统特定元数据这一事实。但我想确切地知道存储在名称节点上的数据是什么。

可以使用这些说明对 HDFS 元数据内容进行离线转储。

hadoop - 通过hadoop访问数据？一步一步的解释

1 回答 1

Related

Reference