我想通过 httpfs 或 Webhdfs 将 HDFS 中的文件读入 Spark。类似的东西
sc.textFile("webhdfs://myhost:14000/webhdfs/v1/path/to/file.txt")
或者,理想情况下,
sc.textFile("httpfs://myhost:14000/webhdfs/v1/path/to/file.txt")
有没有办法让 Spark 通过 Webhdfs/httpfs 读取文件?
我想通过 httpfs 或 Webhdfs 将 HDFS 中的文件读入 Spark。类似的东西
sc.textFile("webhdfs://myhost:14000/webhdfs/v1/path/to/file.txt")
或者,理想情况下,
sc.textFile("httpfs://myhost:14000/webhdfs/v1/path/to/file.txt")
有没有办法让 Spark 通过 Webhdfs/httpfs 读取文件?
我相信 WebHDFS/HttpFS 就像通过 REST-API 传输数据的流源。
然后可以使用 Spark Streaming 从 WebHDFS/HttpFS 接收数据。
根据 SPARK-2930 文档增强请求,spark.yarn.access.namenodes 也应该适用于 webhdfs / hdfs。 SPARK-2930 阐明了有关将 webhdfs 与 spark.yarn.access.namenodes 一起使用的文档
在 YARN 上运行 Spark 获取有关 spark.yarn.access.namenodes 的更多详细信息