0

我目前正在从事一个项目,该项目涉及从 Wikipedia 转储中获取文章标题。可下载的文件是 .bz2 格式,包含一个 XML 文件,如果我要解压缩它,它的大小约为 80GB。

我可以用 Python 打开并阅读前几行,但我的脚本在 43 行后停止阅读。之后,第一篇文章页面开始。我假设页面之间有一个EOF。

有没有办法忽略它并继续阅读?我真的不想解压它,也不想从外部更改文件。

我的代码看起来与此类似:

import bz2

dump = bz2.BZ2File(path, "r")
i = 0
for line in dump:
   print(type(line))
   print(line)
   if i <= 1000:
      i+=1
   else:
      break
     
dump.close()
4

0 回答 0