我想做一个解析wiki页面并从中获取所需信息的项目。我检查了一些爬虫和dom解析器,比如nutch apache crawler和simple dom parser。用核心php解析wiki页面非常慢。
但我不能从
我可以使用哪些工具来获得最佳优化结果?
如何将nutch之类的爬虫与php集成?
如何将从爬虫获取的数据存储在mysql中?
如何组织从爬虫获取的数据?
我必须学习哪个级别的正则表达式?
我是爬虫类项目的新手。
提前感谢您的宝贵时间。不知道为什么人们关闭了我的问题。请重新打开它。
我想做一个解析wiki页面并从中获取所需信息的项目。我检查了一些爬虫和dom解析器,比如nutch apache crawler和simple dom parser。用核心php解析wiki页面非常慢。
但我不能从
我可以使用哪些工具来获得最佳优化结果?
如何将nutch之类的爬虫与php集成?
如何将从爬虫获取的数据存储在mysql中?
如何组织从爬虫获取的数据?
我必须学习哪个级别的正则表达式?
我是爬虫类项目的新手。
提前感谢您的宝贵时间。不知道为什么人们关闭了我的问题。请重新打开它。
维基百科上有一个内置的媒体 wiki API,还有一些 PHP 使用示例
Web 服务 API 提供对 MediaWiki 数据库中包含的数据的直接、高级访问。客户端程序可以通过向 Web 服务发出 HTTP 请求来自动登录 wiki、获取数据和发布更改。