2

我想为一个域生成一个 URL 列表,但我宁愿不自己爬网域来节省带宽。那么有没有办法使用现有的爬取数据呢?

我想到的一个解决方案是进行Yahoo 站点搜索,它可以让我以 TSV 格式下载前 1000 个结果。但是,要获得所有记录,我将不得不抓取搜索结果。Google 也支持站点搜索,但不提供下载数据的简单方法。

您能想出一种适用于大多数(如果不是全部)网站的更好方法吗?

谢谢,理查德

4

3 回答 3

3

您可以通过此在线工具免费下载多达 500 个 URL 的列表:

XML 站点地图生成器

...只需在工具抓取您的网站后选择“文本列表”。

于 2009-08-23T04:29:55.130 回答
1

一些网站管理员提供站点地图,它们本质上是域上每个 URL 的 XML 列表。但是,除了爬行之外,没有通用的解决方案。如果您确实使用爬虫,请遵守 robots.txt。

于 2009-06-28T05:25:38.440 回答
0

似乎没有皇家的网络爬行方式,所以我会坚持我目前的方法......

此外,我发现大多数搜索引擎无论如何都只公开前 1000 个结果。

于 2009-10-05T02:59:27.093 回答