3

我正在尝试从 xml 解析维基百科页面。我正在使用 Special:Export 链接来获取带有如下链接的页面的 xml:

http://en.wikipedia.org/wiki/Special:Export/Bruce_Willis

但是当我尝试获取文件或类别页面时,我无法使用此链接,例如,此页面不返回 xml:

http://en.wikipedia.org/wiki/Special:Export/Category:English-language_films

http://en.wikipedia.org/wiki/Special:Export/File:Bruce_Willis_by_Gage_Skidmore.jpg

我找到了一个解决方案,但我不明白:

  1. 将命名空间作为页面名称的前缀(例如“Help:Contents”),除非选定的命名空间是主命名空间。
  2. 对其他命名空间重复上述步骤(例如 Category:、Template: 等)

我在http://meta.wikimedia.org/wiki/Help:Export找到了这个解决方案。请问这是什么意思。

谢谢你。

4

1 回答 1

4

Special:Export生成给定页面的内容,但“类别文章列表”或“文件”不是页面。您从导出中得到的只是类别或文件描述页面的 xml。

要检索属于某个类别的页面列表,您需要 MediaWiki API:Categorymembers.

试试这个例子。您还可以使用API Sandbox来了解不同的参数。

您不能直接下载文件。但是,imageinfoAPI 可以为您生成文件的 URL,例如this example

另请参阅:使用 MediaWiki API 下载图像?

于 2013-02-13T00:10:28.890 回答