python - Python：忽略 XML 文件中的 EOF

翻译自：https://stackoverflow.com/questions/64444529 2020-10-20T11:49:19.800

40 次

我目前正在从事一个项目，该项目涉及从 Wikipedia 转储中获取文章标题。可下载的文件是 .bz2 格式，包含一个 XML 文件，如果我要解压缩它，它的大小约为 80GB。

我可以用 Python 打开并阅读前几行，但我的脚本在 43 行后停止阅读。之后，第一篇文章页面开始。我假设页面之间有一个EOF。

有没有办法忽略它并继续阅读？我真的不想解压它，也不想从外部更改文件。

我的代码看起来与此类似：

import bz2

dump = bz2.BZ2File(path, "r")
i = 0
for line in dump:
   print(type(line))
   print(line)
   if i <= 1000:
      i+=1
   else:
      break
     
dump.close()

python - Python：忽略 XML 文件中的 EOF

0 回答 0

Related

Reference