4

是否有任何快速(可能是多线程)的方式来抓取我的网站(单击所有本地链接)以查找 404/500 错误(即确保 200 响应)?

我还希望能够将其设置为仅单击每种类型的链接中的 1 个。因此,如果我有 1000 个类别页面,它只会点击进入一个。

http://code.google.com/p/crawler4j/是一个不错的选择吗?

我想要一些超级容易设置的东西,而且我更喜欢 PHP 而不是 Java(尽管如果 Java 快得多,那也可以)。

4

3 回答 3

3

您可以使用旧的稳定的 Xenu 工具来抓取您的网站。

你可以配置他使用100个线程,并按状态码排序结果[500\404\200\403]

于 2012-07-24T22:33:12.913 回答
0

您可以使用任意数量的开源 python 项目轻松实现这一点:

  1. 机械化似乎很受欢迎
  2. 美丽的汤和 urllib

您将使用其中一种方法抓取站点并检查服务器响应,这应该非常简单。

但是,如果您有一个站点地图(或包含所有 URL 的任何类型的列表),您可以尝试使用 cURL 或 urllib 打开每个站点,并且无需爬网即可获得响应。

于 2012-07-24T21:35:14.603 回答
0

定义“快”?你的网站有多大?cURL 将是一个好的开始:http ://curl.haxx.se/docs/manual.html

除非您拥有一个非常庞大的站点并且需要在几秒钟的时间范围内对其进行测试,否则只需将 URL 枚举到一个列表中并尝试每个。

于 2012-07-24T21:35:30.640 回答