php - 解析维基百科页面并使用 php 获取所需信息的最佳工具

Question

我想做一个解析wiki页面并从中获取所需信息的项目。我检查了一些爬虫和dom解析器，比如nutch apache crawler和simple dom parser。用核心php解析wiki页面非常慢。

但我不能从

我是爬虫类项目的新手。

提前感谢您的宝贵时间。不知道为什么人们关闭了我的问题。请重新打开它。

score 2 · Accepted Answer

维基百科上有一个内置的媒体 wiki API，还有一些 PHP 使用示例

Web 服务 API 提供对 MediaWiki 数据库中包含的数据的直接、高级访问。客户端程序可以通过向 Web 服务发出 HTTP 请求来自动登录 wiki、获取数据和发布更改。

1 回答 1