我正在努力使用 Wiki Api。如何使用 API 简单地获取页面 html。我知道这是可能的,因为我以前做过,但我不记得该怎么做。
假设我想要页面http://en.wiktionary.org/wiki/bicycle的页面源,我该怎么做。我使用什么 API。我不想在浏览器中查看?
我正在努力使用 Wiki Api。如何使用 API 简单地获取页面 html。我知道这是可能的,因为我以前做过,但我不记得该怎么做。
假设我想要页面http://en.wiktionary.org/wiki/bicycle的页面源,我该怎么做。我使用什么 API。我不想在浏览器中查看?
使用 Java 和Jsoup,您可以这样做:
Document document = Jsoup
.connect("http://en.wiktionary.org/wiki/bicycle")
.get();
Element bodyContent = document.select("div#bodyContent").first();
System.out.println(bodyContent.html());
假设您需要 HTML,则使用 MediaWiki API 的“解析”操作:
http://en.wiktionary.org/w/api.php?action=parse&page=bicycle&prop=text&disablepp=1&format=json
如果您正在寻找原始 wikitext,您只需请求不同的属性:
http://en.wiktionary.org/w/api.php?action=parse&page=bicycle&prop=wikitext&disablepp=1&format=json