-3

我想做一个解析wiki页面并从中获取所需信息的项目。我检查了一些爬虫和dom解析器,比如nutch apache crawler和simple dom parser。用核心php解析wiki页面非常慢。

但我不能从

  • 我可以使用哪些工具来获得最佳优化结果?

  • 如何将nutch之类的爬虫与php集成?

  • 如何将从爬虫获取的数据存储在mysql中?

  • 如何组织从爬虫获取的数据?

  • 我必须学习哪个级别的正则表达式?

我是爬虫类项目的新手。

提前感谢您的宝贵时间。不知道为什么人们关闭了我的问题。请重新打开它。

4

1 回答 1

2

维基百科上有一个内置的媒体 wiki API,还有一些 PHP 使用示例

Web 服务 API 提供对 MediaWiki 数据库中包含的数据的直接、高级访问。客户端程序可以通过向 Web 服务发出 HTTP 请求来自动登录 wiki、获取数据和发布更改。

于 2012-03-19T11:37:59.883 回答