0

我正在尝试找到收集 URL 的最佳方法,我可以创建自己的小型爬虫,但我的服务器需要数十年才能爬取所有 Internet,并且所需的带宽会很大。另一个想法是使用 Google 的 Search API 或 Yahoo 的 Search API,但这并不是一个很好的解决方案,因为它需要在我得到结果之前执行搜索。

其他想法包括询问 DNS 服务器和请求 URL 列表,但 DNS 服务器可以限制/限制我的请求,甚至一起禁止我。目前我对询问 DNS 服务器的知识非常有限,所以我不知道这是否是最好的方法。

我只想要一个庞大的 URL 列表,但我想在将来构建这个列表而不会遇到砖墙。有什么想法吗?

我开始这个项目是为了学习 Python,但这与问题无关。

4

4 回答 4

2
$ wget http://s3.amazonaws.com/alexa-static/top-1m.csv.zip
于 2009-11-24T02:35:07.940 回答
0

巨大有多大?一个好的起点是http://www.alexa.com/topsites。他们提供前 1,000,000 个网站的下载(通过他们的排名机制)。然后,您可以通过访问 Google 并抓取link: url列表中每个 url 的查询结果来扩展此列表。

于 2009-11-24T02:35:42.293 回答
0

现在的现代术语是 URI 和 URN,URL 是缩小/过时的。我会扫描在一个文件中包含许多地址的站点地图文件,并研究经典的文本蜘蛛、漫游者、经纪人和机器人以及定义 URI 正则表达式的RFC 3305(附录 b. p 50)

于 2009-11-24T02:46:08.463 回答
0

您可以在Verisign注册以访问整个 .com 和 .net 区域文件

我没有阅读使用条款的细则,也不知道它的成本是多少(如果有的话)。但是,这将为您提供大量用作 URL 的活动域。

于 2009-11-24T03:06:56.957 回答