web-crawler - 新站点的爬虫/蜘蛛检测

Question

我有使用 c# 和 vb.net 的良好开发经验，但我需要一些指导。我想开发类似搜索引擎的蜘蛛和爬虫，但我不知道如何：

如何检测网络中的新网站？就像谷歌在网站启动时检测和抓取网站一样？
如何检测添加到任何网站的新页面？我可以检测和解析网站的所有页面，但需要时间吗？如何检测新添加的页面？
如何检测修改的页面？

score 1 · Accepted Answer

以下链接可能有用

http://www.makeuseof.com/tag/build-basic-web-crawler-pull-information-website/

http://www.bitrepository.com/how-to-create-a-simple-web-data-extractor.html

score 0 · Accepted Answer

我不太了解 c# id，首先编写在 google 上运行 site:"www.spiderthissite.com" 的代码并记录 /locations/ id 也使 reg ex 可以查看链接页面的 html 并查找链接和文件夹位置。

但是，您的问题相当广泛，我只是先给它一个爆炸，然后在您遇到困难时来这里。

score 0 · Accepted Answer

查找新页面的两种主要方法：

站点地图（谷歌这个词以了解更多信息），它还可以指示页面何时更新。
在您正在抓取的另一个页面上注意到指向新站点/页面的链接。

对于您已经知道的页面，您可以使用“If-Modified-Since”HTTP 标头，它告诉服务器如果自您指定的日期以来该页面没有更改，则返回 304 响应。如果页面没有更改，这可以节省您再次下载和解析页面，尽管显然您仍然必须提出请求才能找到它。这就是为什么首选站点地图的原因，您可以立即获得有关整个站点的信息。当然，网站不需要提供它们。

web-crawler - 新站点的爬虫/蜘蛛检测

3 回答 3

Related

Reference