phpcrawl - PHPcrawler - tmp 文件

Question

我下载了最新版本的phpcrawler，我可以访问我自己的测试网站。

我在这个网站上只有一张图片和一些文字，我运行了爬虫，我收到了减去图片的文字，因为我做了正确的$crawler->addNonFollowMatch("/.(jpg|gif|png)$/ i");

我无法保存tmp文件它没有将唯一的tmp文件保存在我运行爬虫的文件夹中，我试图保存命名文件但没有运气。

我确实在所有 php 文件的不同行上遇到了许多折旧错误，例如：@fopen，@不同区域的原因问题。我用PHP也可以Regex。大卫。

score 0 · Accepted Answer

我回答了我自己的问题，因为我发现PHPCrawler问题确实没有得到回答；我看到去年的一个问题没有回答。我也会回答它，尽管做任何好事可能为时已晚。这就是答案。

我添加了一个修改后的 phpcrawler，我根据自己的需要进行了调整：

$fp = fopen('c:/test/poopoo.txt','w');
fwrite($fp,($page_data['source'])); 
fclose($fp);

您在刷新文件并创建类实例之前放置它。

我发现PHP Simple HTML DOM Parser从这个项目中使用效果很好。如果您需要更多控制使用RegExp，但这确实有一个陡峭的学习曲线。

1 回答 1