我使用这种结构在本地存储了 json 事件(用于调试)events/year/month/day/hour/somefiles.log
:。每个file.log
都是文件,每行都有一个 json 对象(我的事件)。
如何spark_read_json
从 sparklyr 包中递归加载这些文件。我试过 :
library(sparklyr)
sc = spark_connect(master = "local")
events = spark_read_json(sc = sc, name = "events", path = "events/*")
但没有成功。
编辑 1
实际上,它在路径中的某个级别上工作,例如
events = spark_read_json(sc = sc, name = "events", path = "events/year/month/day/*")
有效,但
events = spark_read_json(sc = sc, name = "events", path = "events/year/month/*"
不工作