我对 hadoop 非常陌生,并且正在阅读《Hadoop 权威指南》这本书
Hadoop 中流式数据访问的含义是什么以及为什么我们说 Hadoop 应用程序中的延迟很高。谁能给我解释一下?提前致谢
好的..让我试试..“流式数据访问”意味着不是以数据包或块的形式读取数据,而是以恒定的比特率连续读取数据,就像水龙头里的水一样。应用程序从文件的开头开始读取数据,并继续以顺序方式读取它,而无需随机查找。
谈到问题的第二部分,据说 Hadoop 应用程序的延迟很高,因为最初的几秒钟用于作业提交、资源分配、拆分创建、映射器创建等活动。
高温高压
对于延迟,我可以说完成时间总是超过30 秒,即使您正在使用KB 的数据。我不完全知道为什么它这么长,但这次是初始化,例如创建作业,确定哪部分数据将由哪个工作人员处理,等等。
因此,如果您要处理小于 GB 的少量数据,请不要使用 hadoop,只需使用您的 pc。Hadoop 只适用于大数据
它指的是 HDFS 操作是读密集型而不是写密集型的。在典型的场景中,您将用于分析的源数据仅在 HDFS 是最新的时才加载到 HDFS 中,并确保您拥有最新的数据集。
在分析过程中,会制作一份原始数据(几乎是整个形式)的副本。然后将对复制的数据调用您的 MapReduce 操作。
如您所见,它与存储和处理之间的通常关系不同。在正常操作中(想想您的 PC/Mac),您最好希望文件快速打开,这是低延迟并保持较小的文件大小以使其可行。
由于 HDFS 倾向于使用 PB(1000 GB)的延迟会很高,但相比之下,实际上可以更轻松地处理大型数据集。