r - 在 R 中使用 Sparklyr 读取 .csv 文件

Question

我有几个超过 2 GB的.csv文件。C:\Users\USER_NAME\Documents我想使用 Apache Spark 从 R 中读取数据。我正在使用 Microsoft R Open 3.3.1 和 Spark 2.0.1。

我坚持使用 package.json 中定义.csv的函数读取文件。它要求以 . 开头的文件路径。我想知道我的案例的正确文件路径，以目录中的文件名开头和结尾。spark_read_csv(...)Sparklyrfile://file://.../Documents

score 1 · Accepted Answer

我有一个类似的问题。在我的情况下，在使用 spark_read_csv 调用它之前，必须将 .csv 文件放入 hdfs 文件系统。

我想你可能有类似的问题。

如果您的集群也使用 hdfs 运行，您需要使用：

hdfs dfs -put

最好的，菲利克斯

1 回答 1