php - wikipedia API 以文本格式获取特定搜索文本

Question

我想将“美利坚合众国”的所有内容 grep 到没有图像的文本文件中。我正在寻找文本格式的回复。

我怎样才能做到这一点？我得到了这个网址：http://en.wikipedia.org/w/api.php?format=xml&action=query&titles=united_states&prop=revisions&rvprop=content

但我没有得到我想要的。也许我错过了一些基本的东西。

score 2 · Accepted Answer

如果你只需要文章的文字，action=raw比使用 API 简单得多：

或者

（ctype=text/css仅当您想在浏览器中打开它时才重要。）

不清楚您在第 3 点中在说什么，但如果您想从表中提取数据，您最好的选择可能是获取渲染的（HTML）内容并使用某种 DOM 解析器（并密切关注Wikidata这将使事情在几个月内变得更加简单）。

1 回答 1