我已经从 common crawl 下载了一个warc.gz
文件,我必须使用 spark 处理它。如何将文件转换为 RDD?sc.textFile("filepath")
似乎没有帮助。打印时rdd.take(1)
,它给了我[u'WARC/1.0']
,而它应该给了我完整的记录。如何将文件转换为可处理的 rdd?谢谢!
问问题
556 次
我已经从 common crawl 下载了一个warc.gz
文件,我必须使用 spark 处理它。如何将文件转换为 RDD?sc.textFile("filepath")
似乎没有帮助。打印时rdd.take(1)
,它给了我[u'WARC/1.0']
,而它应该给了我完整的记录。如何将文件转换为可处理的 rdd?谢谢!