我正在使用 python 的“warc”库读取 WARC 文件。我正在使用的当前文件约为 4.50 GB。事情是 ;
file = warc.open("random.warc")
html_lists = [line for line in file]
执行这 2 行最多需要 40 秒。因为像这样的文件还有 64000 个,所以每个文件需要 40 秒是不可接受的。你们有任何提高性能的技巧或任何不同的方法吗?
编辑:我发现 Beautifulsoup 操作需要一些时间。所以我删除了它并自己写了必要的东西。现在速度快了 100 倍。读取和处理 4.50 GB 数据需要 +- 60 秒。通过这行代码,我从数据中删除了脚本;
clean = re.sub(r"<script.*?</script>", "", string=text)
有了这个,我拆分了文本并删除了我不需要的图章
warc_stamp = str(soup).split(r"\r\n\r\n")
正如我所说,它更快,但在这种情况下 60 秒并不是那么好。有什么建议么 ?