java - 如何获取维基词典页面的 Html 源？

Question

我正在努力使用 Wiki Api。如何使用 API 简单地获取页面 html。我知道这是可能的，因为我以前做过，但我不记得该怎么做。

假设我想要页面http://en.wiktionary.org/wiki/bicycle的页面源，我该怎么做。我使用什么 API。我不想在浏览器中查看？

score 1 · Accepted Answer

使用 Java 和Jsoup，您可以这样做：

Document document = Jsoup
        .connect("http://en.wiktionary.org/wiki/bicycle")
        .get();

Element bodyContent = document.select("div#bodyContent").first();

System.out.println(bodyContent.html());

score 0 · Accepted Answer

假设您需要 HTML，则使用 MediaWiki API 的“解析”操作：

http://en.wiktionary.org/w/api.php?action=parse&page=bicycle&prop=text&disablepp=1&format=json

如果您正在寻找原始 wikitext，您只需请求不同的属性：

http://en.wiktionary.org/w/api.php?action=parse&page=bicycle&prop=wikitext&disablepp=1&format=json

java - 如何获取维基词典页面的 Html 源？

2 回答 2

Related

Reference