7

我偶然发现了wikidump python 库,我认为它非常适合我。

我可以通过查看源代码来解决问题,但我是 python 新手,我不想编写 BS 代码,因为我需要它的项目对我来说很重要。

我得到了“wiki-SPECIFICDATE-pages-articles.xml.bz2”文件,我需要将其用作获取单篇文章的来源。谁能给我一些正确实现这一目标的指示,或者更好的是,指出一些文档?我找不到任何东西!

(ps如果你有更好和正确的文档库,请告诉我)

4

1 回答 1

0

不确定我是否理解这个问题,但如果你有维基百科转储并且你需要解析维基代码,我会建议mwparserfromhell lib。

另一个强大的框架是Pywikibot,它是 Wikipedia 上机器人用户的历史框架(因此,它有许多专门用于编写页面的脚本,而不是阅读和解析文章)。它有很多文档(尽管有时已经过时)并且它使用 MediaWiki API。

当然,您可以同时使用它们:PWB 用于获取文章,mwparserfromhell 用于解析。

于 2014-12-18T19:48:40.710 回答