scripting - 如何获取 Wikipedia 上文章的完整更改历史记录？

Question

我想要一种方法来下载维基百科上热门文章历史中每一页的内容。换句话说，我想获得一篇文章的每次编辑的全部内容。我该怎么做呢？

有没有一种简单的方法可以使用 Wikipedia API 来做到这一点。我看了看，没有发现任何弹出的简单解决方案。我还查看了 PyWikipedia Bot 页面 ( http://botwiki.sno.cc/w/index.php?title=Template:Script&oldid=3813 ) 上的脚本，但没有找到任何有用的东西。用 Python 或 Java 做一些简单的方法是最好的，但我愿意接受任何可以让我获得数据的简单解决方案。

score 2 · Accepted Answer

有多种选择。您可以使用Special:Export特殊页面来获取页面历史记录的 XML 流。或者，您可以使用位于/w/api.php下的 API 。使用action=query&title=$TITLE&prop=revisions&rvprop=timestamp|user|contentetc. 来获取历史记录。Pywikipedia为此提供了一个接口，但我不知道如何调用它。Python 的另一个库mwclient也提供了这个，通过site.pages[page_title].revisions()

score 0 · Accepted Answer

嗯，一种解决方案是解析 Wikipedia XML 转储。

只是以为我会把它放在那里。

如果你只得到一页，那就太过分了。但是，如果您不需要最新的信息，使用 XML 将具有一次性下载而不是重复网络访问的优势。

scripting - 如何获取 Wikipedia 上文章的完整更改历史记录？

2 回答 2

Related

Reference