2

我想通过 httpfs 或 Webhdfs 将 HDFS 中的文件读入 Spark。类似的东西

sc.textFile("webhdfs://myhost:14000/webhdfs/v1/path/to/file.txt")

或者,理想情况下,

sc.textFile("httpfs://myhost:14000/webhdfs/v1/path/to/file.txt")

有没有办法让 Spark 通过 Webhdfs/httpfs 读取文件?

4

2 回答 2

0

我相信 WebHDFS/HttpFS 就像通过 REST-API 传输数据的流源。

然后可以使用 Spark Streaming 从 WebHDFS/HttpFS 接收数据。

于 2014-12-09T14:11:19.883 回答
-1

根据 SPARK-2930 文档增强请求,spark.yarn.access.namenodes 也应该适用于 webhdfs / hdfs。 SPARK-2930 阐明了有关将 webhdfs 与 spark.yarn.access.namenodes 一起使用的文档

在 YARN 上运行 Spark 获取有关 spark.yarn.access.namenodes 的更多详细信息

于 2014-12-10T09:12:38.973 回答