我目前正在从事一个项目,该项目涉及从 Wikipedia 转储中获取文章标题。可下载的文件是 .bz2 格式,包含一个 XML 文件,如果我要解压缩它,它的大小约为 80GB。
我可以用 Python 打开并阅读前几行,但我的脚本在 43 行后停止阅读。之后,第一篇文章页面开始。我假设页面之间有一个EOF。
有没有办法忽略它并继续阅读?我真的不想解压它,也不想从外部更改文件。
我的代码看起来与此类似:
import bz2
dump = bz2.BZ2File(path, "r")
i = 0
for line in dump:
print(type(line))
print(line)
if i <= 1000:
i+=1
else:
break
dump.close()