json - 如何使用 sparklyr 的 spark_read_json 读取目录中的所有文件

Question

我使用这种结构在本地存储了 json 事件（用于调试）events/year/month/day/hour/somefiles.log：。每个file.log都是文件，每行都有一个 json 对象（我的事件）。

如何spark_read_json从 sparklyr 包中递归加载这些文件。我试过：

library(sparklyr)

sc = spark_connect(master = "local")
events = spark_read_json(sc = sc, name = "events", path = "events/*")

但没有成功。

实际上，它在路径中的某个级别上工作，例如

events = spark_read_json(sc = sc, name = "events", path = "events/year/month/day/*")有效，但

events = spark_read_json(sc = sc, name = "events", path = "events/year/month/*"不工作

score 3 · Accepted Answer

您可能需要使用多个通配符指定路径搜索的深度。尝试：

events = spark_read_json(sc = sc, name = "events", path = "events/year/month/*/*")

1 回答 1