我想做一个解析wiki页面并从中获取所需信息的项目。我检查了一些爬虫和dom解析器,比如nutch apache crawler和simple dom parser。用核心php解析wiki页面非常慢。
但我不能从
我可以使用哪些工具来获得最佳优化结果?
如何将nutch之类的爬虫与php集成?
如何将从爬虫获取的数据存储在mysql中?
如何组织从爬虫获取的数据?
我必须学习哪个级别的正则表达式?
我是爬虫类项目的新手。
提前感谢您的宝贵时间。不知道为什么人们关闭了我的问题。请重新打开它。