3

我有使用 c# 和 vb.net 的良好开发经验,但我需要一些指导。我想开发类似搜索引擎的蜘蛛和爬虫,但我不知道如何:

  1. 如何检测网络中的新网站?就像谷歌在网站启动时检测和抓取网站一样?
  2. 如何检测添加到任何网站的新页面?我可以检测和解析网站的所有页面,但需要时间吗?如何检测新添加的页面?
  3. 如何检测修改的页面?
4

3 回答 3

0

我不太了解 c# id,首先编写在 google 上运行 site:"www.spiderthissite.com" 的代码并记录 /locations/ id 也使 reg ex 可以查看链接页面的 html 并查找链接和文件夹位置。

但是,您的问题相当广泛,我只是先给它一个爆炸,然后在您遇到困难时来这里。

于 2013-03-30T12:58:51.570 回答
0

查找新页面的两种主要方法:

  1. 站点地图(谷歌这个词以了解更多信息),它还可以指示页面何时更新。
  2. 在您正在抓取的另一个页面上注意到指向新站点/页面的链接。

对于您已经知道的页面,您可以使用“If-Modified-Since”HTTP 标头,它告诉服务器如果自您指定的日期以来该页面没有更改,则返回 304 响应。如果页面没有更改,这可以节省您再次下载和解析页面,尽管显然您仍然必须提出请求才能找到它。这就是为什么首选站点地图的原因,您可以立即获得有关整个站点的信息。当然,网站不需要提供它们。

于 2013-03-30T12:33:04.380 回答