1

我想要一种方法来下载维基百科上热门文章历史中每一页的内容。换句话说,我想获得一篇文章的每次编辑的全部内容。我该怎么做呢?

有没有一种简单的方法可以使用 Wikipedia API 来做到这一点。我看了看,没有发现任何弹出的简单解决方案。我还查看了 PyWikipedia Bot 页面 ( http://botwiki.sno.cc/w/index.php?title=Template:Script&oldid=3813 ) 上的脚本,但没有找到任何有用的东西。用 Python 或 Java 做一些简单的方法是最好的,但我愿意接受任何可以让我获得数据的简单解决方案。

4

2 回答 2

2

有多种选择。您可以使用Special:Export特殊页面来获取页面历史记录的 XML 流。或者,您可以使用位于/w/api.php下的 API 。使用action=query&title=$TITLE&prop=revisions&rvprop=timestamp|user|contentetc. 来获取历史记录。Pywikipedia为此提供了一个接口,但我不知道如何调用它。Python 的另一个库mwclient也提供了这个,通过site.pages[page_title].revisions()

于 2010-07-26T10:33:57.543 回答
0

嗯,一种解决方案是解析 Wikipedia XML 转储。

只是以为我会把它放在那里。

如果你只得到一页,那就太过分了。但是,如果您不需要最新的信息,使用 XML 将具有一次性下载而不是重复网络访问的优势。

于 2010-07-26T00:53:16.593 回答