我正在尝试在 Linux 上打开最新的日语 Wikipedia 数据库以在 Python 3.3.1 中阅读,但Segmentation fault (core dumped)
这个短程序出现错误:
with open("jawiki-latest-pages-articles.xml") as f:
text = f.read()
文件本身很大:
-rw-r--r-- 1 fredrick users 7368183805 May 17 20:19 jawiki-latest-pages-articles.xml
因此,我可以存储多长时间的字符串似乎是有上限的。解决这种情况的最佳方法是什么?
我的最终目标是计算文件中最常见的字符,有点像 Jack Halpern 的“报纸上最常用的汉字”的现代版本。:)