7

我只想获取内容(没有链接,没有类别,没有图像......只是文字)

4

1 回答 1

11

无法从 Wikipedia API 获取“仅文本”。您可以下载页面的 HTML(如果您通过 index.php 而不是 api.php 执行此操作,请使用action=render以避免下载所有皮肤内容)或 wikitext(您可以通过 API 或传递action=raw给 index.php 来执行此操作)。 php); 然后,您必须自己解析它以删除您不想保留的位。

在 HTML 输出中,MediaWiki 通常擅长将类添加到您可能想要过滤掉的各种界面元素;用户创建的模板等可能不那么重要(例如,用于表格排序的黑客只是将一些文本放在一个display:none跨度中,没有类)。

要通过 API 获取 wikitext,请使用prop=revisions. 要获取呈现的 HTML,请使用action=parse.

于 2011-05-07T15:37:21.437 回答