-1

我有一个格式如下的网站:

http://www.domain.com/membership/member_zoom.php?value

值从 1000 开始,在 15,000 左右停止

以下是源代码示例:

<h1>Member Information</h1>


<h2>Company Name</h2>
<p>Address<br />
More Address<br />
City<br />
State<br />
Postal code<br />
</p>
<p><strong>Contact:</strong> Firstname Lastname, PH.D., P.ENG. - <a href="mailto:email@email.com">email@email.com</a><br /></p>
<a href="http://www.domain.com">www.domain.com</a><br />
<p><strong>Phone:</strong> (555)555-5555<br /></p>

因此,我需要获取成员信息和最后一个 div 标签之间的所有内容,然后将 ID 值增加 1,重复。但是,有很多死ID。我的刮刀只是锤击该站点,增加一次然后再次击中它。有没有更简单的方法?也许某种方式来建立一个故障保险?

4

2 回答 2

2

在您尝试加载它并查看它是否存在之前,无法判断一个 id 是否存在。您需要找到链接列表,或从网站的另一部分抓取成员 ID。如果你不能做到这一点,你只需要尝试每一个。

于 2012-08-16T15:58:04.930 回答
0

发出 HEAD 请求。跳过 404 并用好的做 GET。忘记 read(1024),那会浪费你和他们的带宽。

于 2012-08-17T06:11:27.427 回答