apache-spark - 将从 Common Crawl 下载的 warc.gz 文件转换为 RDD

Question

我已经从 common crawl 下载了一个warc.gz文件，我必须使用 spark 处理它。如何将文件转换为 RDD？sc.textFile("filepath")似乎没有帮助。打印时rdd.take(1)，它给了我[u'WARC/1.0']，而它应该给了我完整的记录。如何将文件转换为可处理的 rdd？谢谢！

score 2 · Accepted Answer

你得到这个是因为 RDD 支持非结构化数据。如果您将文件作为 RDD 读取，则 warc 结构将消失。因此，当您执行 rdd.take(1) 时，这实际上意味着 RDD 的第一行。因此，结果为 [u'WARC/1.0']。如果要处理warc记录。我不推荐使用 spark，因为目前还支持 Warc 文件。使用 python warc 库应该可以帮助您解决这个问题，因为它可以保留您丰富的 WARC 数据的结构。

apache-spark - 将从 Common Crawl 下载的 warc.gz 文件转换为 RDD

1 回答 1

Related

Reference