我有使用 c# 和 vb.net 的良好开发经验,但我需要一些指导。我想开发类似搜索引擎的蜘蛛和爬虫,但我不知道如何:
- 如何检测网络中的新网站?就像谷歌在网站启动时检测和抓取网站一样?
- 如何检测添加到任何网站的新页面?我可以检测和解析网站的所有页面,但需要时间吗?如何检测新添加的页面?
- 如何检测修改的页面?
我有使用 c# 和 vb.net 的良好开发经验,但我需要一些指导。我想开发类似搜索引擎的蜘蛛和爬虫,但我不知道如何:
以下链接可能有用
http://www.makeuseof.com/tag/build-basic-web-crawler-pull-information-website/
http://www.bitrepository.com/how-to-create-a-simple-web-data-extractor.html
我不太了解 c# id,首先编写在 google 上运行 site:"www.spiderthissite.com" 的代码并记录 /locations/ id 也使 reg ex 可以查看链接页面的 html 并查找链接和文件夹位置。
但是,您的问题相当广泛,我只是先给它一个爆炸,然后在您遇到困难时来这里。
查找新页面的两种主要方法:
对于您已经知道的页面,您可以使用“If-Modified-Since”HTTP 标头,它告诉服务器如果自您指定的日期以来该页面没有更改,则返回 304 响应。如果页面没有更改,这可以节省您再次下载和解析页面,尽管显然您仍然必须提出请求才能找到它。这就是为什么首选站点地图的原因,您可以立即获得有关整个站点的信息。当然,网站不需要提供它们。