0

我下载了最新版本的phpcrawler,我可以访问我自己的测试网站。

我在这个网站上只有一张图片和一些文字,我运行了爬虫,我收到了减去图片的文字,因为我做了正确的$crawler->addNonFollowMatch("/.(jpg|gif|png)$/ i");

我无法保存tmp文件它没有将唯一的tmp文件保存在我运行爬虫的文件夹中,我试图保存命名文件但没有运气。

我确实在所有 php 文件的不同行上遇到了许多折旧错误,例如:@fopen@不同区域的原因问题。我用PHP也可以Regex。大卫。

4

1 回答 1

0

我回答了我自己的问题,因为我发现PHPCrawler问题确实没有得到回答;我看到去年的一个问题没有回答。我也会回答它,尽管做任何好事可能为时已晚。这就是答案。

我添加了一个修改后的 phpcrawler,我根据自己的需要进行了调整:

$fp = fopen('c:/test/poopoo.txt','w');
fwrite($fp,($page_data['source'])); 
fclose($fp);

您在刷新文件并创建类实例之前放置它。

我发现PHP Simple HTML DOM Parser这个项目中使用效果很好。如果您需要更多控制使用RegExp,但这确实有一个陡峭的学习曲线。

于 2012-04-05T11:03:23.870 回答