0

我已经从 common crawl 下载了一个warc.gz文件,我必须使用 spark 处理它。如何将文件转换为 RDD?sc.textFile("filepath")似乎没有帮助。打印时rdd.take(1),它给了我[u'WARC/1.0'],而它应该给了我完整的记录。如何将文件转换为可处理的 rdd?谢谢!

4

1 回答 1

2

你得到这个是因为 RDD 支持非结构化数据。如果您将文件作为 RDD 读取,则 warc 结构将消失。因此,当您执行 rdd.take(1) 时,这实际上意味着 RDD 的第一行。因此,结果为 [u'WARC/1.0']。如果要处理warc记录。我不推荐使用 spark,因为目前还支持 Warc 文件。使用 python warc 库应该可以帮助您解决这个问题,因为它可以保留您丰富的 WARC 数据的结构。

于 2017-08-24T00:35:40.230 回答