我想为一个域生成一个 URL 列表,但我宁愿不自己爬网域来节省带宽。那么有没有办法使用现有的爬取数据呢?
我想到的一个解决方案是进行Yahoo 站点搜索,它可以让我以 TSV 格式下载前 1000 个结果。但是,要获得所有记录,我将不得不抓取搜索结果。Google 也支持站点搜索,但不提供下载数据的简单方法。
您能想出一种适用于大多数(如果不是全部)网站的更好方法吗?
谢谢,理查德
我想为一个域生成一个 URL 列表,但我宁愿不自己爬网域来节省带宽。那么有没有办法使用现有的爬取数据呢?
我想到的一个解决方案是进行Yahoo 站点搜索,它可以让我以 TSV 格式下载前 1000 个结果。但是,要获得所有记录,我将不得不抓取搜索结果。Google 也支持站点搜索,但不提供下载数据的简单方法。
您能想出一种适用于大多数(如果不是全部)网站的更好方法吗?
谢谢,理查德
一些网站管理员提供站点地图,它们本质上是域上每个 URL 的 XML 列表。但是,除了爬行之外,没有通用的解决方案。如果您确实使用爬虫,请遵守 robots.txt。
似乎没有皇家的网络爬行方式,所以我会坚持我目前的方法......
此外,我发现大多数搜索引擎无论如何都只公开前 1000 个结果。