当我尝试使用 spark.read.parquet() 从指定位置(如 /test)读取镶木地板文件时,我收到一条错误消息,提示 file://test 不存在。当我将 core-site.xml 添加为代码中的资源时
sc.hadoopConfiguration.addResource(new Path(<path-to-core-site.xml>))
它确实在hdfs中查找。但是我不想在代码中添加资源。我的问题是如何确保 spark 读取 core-site.xml 并使用 hdfs 作为默认文件系统。
我已经在虚拟机中设置了一个带有 hadoop 3、spark 2.4.2 和 yarn 作为资源管理器的 ubuntu 18.04.2LTS 服务器。我已经将 core-site.xml 配置为 fs.defaultFS 设置为 hdfs://localhost:9000。我还在 bash 文件中配置了 HADOOP_CONF_DIR。