scala - 在 Spark 独立集群中处理来自 hdfs 的数据时阻止丢失的异常

问问题 2017-07-12T11:42:46.037

999 次

我正在使用 2 个工人和 2 个数据节点在 hadoop 上运行 spark。第一台机器包含：sparkmaster、namenode、worker-1、datanode-1。第二台机器包含：worker2，datanode2

在 hadoop 集群中，datanode-1 上的/usr目录下有 2 个文件：Notice.txt 和 datanode-2 上：README.txt

我想从这两个文件创建一个 rdd 并计算行数。

在第一台机器上，我使用 master spark://masterIP:7077 [独立模式]运行 spark shell

然后在 scala 命令行上使用 val rdd = sc.textFile("/usr/") 创建了 RDD，但是当我进行计数操作rdd.count()时，它会引发以下错误

(TID 2, masterIP, executor 1): org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-1313298757-masterIP-1499412323227:blk_1073741827_1003 file=/usr/README.txt

worker-1 选择NOTICE.txt但 worker-2 没有选择README.txt

我没有遇到问题，任何帮助将不胜感激，谢谢

scala - 在 Spark 独立集群中处理来自 hdfs 的数据时阻止丢失的异常

0 回答 0

Related

Reference