我正在使用 2 个工人和 2 个数据节点在 hadoop 上运行 spark。第一台机器包含:sparkmaster、namenode、worker-1、datanode-1。第二台机器包含:worker2,datanode2
在 hadoop 集群中,datanode-1 上的/usr目录下有 2 个文件:Notice.txt 和 datanode-2 上:README.txt
我想从这两个文件创建一个 rdd 并计算行数。
在第一台机器上,我使用 master spark://masterIP:7077 [独立模式]运行 spark shell
然后在 scala 命令行上使用 val rdd = sc.textFile("/usr/") 创建了 RDD,但是当我进行计数操作rdd.count()时,它会引发以下错误
(TID 2, masterIP, executor 1): org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-1313298757-masterIP-1499412323227:blk_1073741827_1003 file=/usr/README.txt
worker-1 选择NOTICE.txt但 worker-2 没有选择README.txt
我没有遇到问题,任何帮助将不胜感激,谢谢