我在 HDFS 中有一个大型索引 lzo 文件,我想在 spark 数据帧中读取它。该文件包含多行 json 文档。
posts_dir='/data/2016/01'
posts_dir
具有以下内容:
/data/2016/01/posts.lzo
/data/2016/01/posts.lzo.index
以下工作但不使用索引,因此需要很长时间,因为它只使用一个映射器。
posts = spark.read.json(posts_dir)
有没有办法让它利用索引?