1

我有几个超过 2 GB的.csv文件。C:\Users\USER_NAME\Documents我想使用 Apache Spark 从 R 中读取数据。我正在使用 Microsoft R Open 3.3.1 和 Spark 2.0.1。

我坚持使用 package.json 中定义.csv的函数读取文件。它要求以 . 开头的文件路径。我想知道我的案例的正确文件路径,以目录中的文件名开头和结尾。spark_read_csv(...)Sparklyrfile://file://.../Documents

4

1 回答 1

1

我有一个类似的问题。在我的情况下,在使用 spark_read_csv 调用它之前,必须将 .csv 文件放入 hdfs 文件系统。

我想你可能有类似的问题。

如果您的集群也使用 hdfs 运行,您需要使用:

hdfs dfs -put

最好的,菲利克斯

于 2017-05-30T10:05:31.303 回答