0

我的 Cloudera 项目中有一个文件位于“/home/cdsw/npi.json”下。我尝试使用以下命令来使用 PySpark 从我的“本地”CDSW 项目中读取数据,但无法使用以下任何命令进行读取。他们都抛出“路径不存在:”错误

npi = sc.read.format("json").load("file:///home/cdsw/npi.json")

npi = sc.read.format("json").load("file:/home/cdsw/npi.json")

npi = sc.read.format("json").load("home/cdsw/npi.json")
4

1 回答 1

2

根据本文档,从 HDFS 访问数据

从终端,将文件本地文件系统复制到HDFS. 使用-put-copyFromLocal

hdfs dfs -put /home/cdsw/npi.json /destination

在哪里,/destinationHDFS

然后,读取PySpark.

npi = sc.read.format("json").load("/destination/npi.json")

了解更多信息:

put [-f] [-p] [-l] <localsrc> ...  <destination> 

将文件从本地文件系统复制到 fs。如果文件已经存在,则复制失败,除非给出 -f 标志。

于 2018-10-30T18:58:14.207 回答