我只想获取内容(没有链接,没有类别,没有图像......只是文字)
问问题
7040 次
1 回答
11
无法从 Wikipedia API 获取“仅文本”。您可以下载页面的 HTML(如果您通过 index.php 而不是 api.php 执行此操作,请使用action=render
以避免下载所有皮肤内容)或 wikitext(您可以通过 API 或传递action=raw
给 index.php 来执行此操作)。 php); 然后,您必须自己解析它以删除您不想保留的位。
在 HTML 输出中,MediaWiki 通常擅长将类添加到您可能想要过滤掉的各种界面元素;用户创建的模板等可能不那么重要(例如,用于表格排序的黑客只是将一些文本放在一个display:none
跨度中,没有类)。
要通过 API 获取 wikitext,请使用prop=revisions
. 要获取呈现的 HTML,请使用action=parse
.
于 2011-05-07T15:37:21.437 回答