hadoop - hadoop 应用程序中的流式数据访问和延迟

Question

我对 hadoop 非常陌生，并且正在阅读《Hadoop 权威指南》这本书

Hadoop 中流式数据访问的含义是什么以及为什么我们说 Hadoop 应用程序中的延迟很高。谁能给我解释一下？提前致谢

score 3 · Accepted Answer

好的..让我试试..“流式数据访问”意味着不是以数据包或块的形式读取数据，而是以恒定的比特率连续读取数据，就像水龙头里的水一样。应用程序从文件的开头开始读取数据，并继续以顺序方式读取它，而无需随机查找。

谈到问题的第二部分，据说 Hadoop 应用程序的延迟很高，因为最初的几秒钟用于作业提交、资源分配、拆分创建、映射器创建等活动。

高温高压

score 2 · Accepted Answer

对于延迟，我可以说完成时间总是超过30 秒，即使您正在使用KB 的数据。我不完全知道为什么它这么长，但这次是初始化，例如创建作业，确定哪部分数据将由哪个工作人员处理，等等。

因此，如果您要处理小于 GB 的少量数据，请不要使用 hadoop，只需使用您的 pc。Hadoop 只适用于大数据

score 1 · Accepted Answer

它指的是 HDFS 操作是读密集型而不是写密集型的。在典型的场景中，您将用于分析的源数据仅在 HDFS 是最新的时才加载到 HDFS 中，并确保您拥有最新的数据集。

在分析过程中，会制作一份原始数据（几乎是整个形式）的副本。然后将对复制的数据调用您的 MapReduce 操作。

如您所见，它与存储和处理之间的通常关系不同。在正常操作中（想想您的 PC/Mac），您最好希望文件快速打开，这是低延迟并保持较小的文件大小以使其可行。

由于 HDFS 倾向于使用 PB（1000 GB）的延迟会很高，但相比之下，实际上可以更轻松地处理大型数据集。

3 回答 3