url - 捕获 URL 的最佳方法是什么？

Question

我正在尝试找到收集 URL 的最佳方法，我可以创建自己的小型爬虫，但我的服务器需要数十年才能爬取所有 Internet，并且所需的带宽会很大。另一个想法是使用 Google 的 Search API 或 Yahoo 的 Search API，但这并不是一个很好的解决方案，因为它需要在我得到结果之前执行搜索。

其他想法包括询问 DNS 服务器和请求 URL 列表，但 DNS 服务器可以限制/限制我的请求，甚至一起禁止我。目前我对询问 DNS 服务器的知识非常有限，所以我不知道这是否是最好的方法。

我只想要一个庞大的 URL 列表，但我想在将来构建这个列表而不会遇到砖墙。有什么想法吗？

我开始这个项目是为了学习 Python，但这与问题无关。

score 2 · Accepted Answer

2

$ wget http://s3.amazonaws.com/alexa-static/top-1m.csv.zip

于 2009-11-24T02:35:07.940 回答

score 0 · Accepted Answer

巨大有多大？一个好的起点是http://www.alexa.com/topsites。他们提供前 1,000,000 个网站的下载（通过他们的排名机制）。然后，您可以通过访问 Google 并抓取link: url列表中每个 url 的查询结果来扩展此列表。

score 0 · Accepted Answer

现在的现代术语是 URI 和 URN，URL 是缩小/过时的。我会扫描在一个文件中包含许多地址的站点地图文件，并研究经典的文本蜘蛛、漫游者、经纪人和机器人以及定义 URI 正则表达式的RFC 3305（附录 b. p 50）

score 0 · Accepted Answer

您可以在Verisign注册以访问整个 .com 和 .net 区域文件

我没有阅读使用条款的细则，也不知道它的成本是多少（如果有的话）。但是，这将为您提供大量用作 URL 的活动域。

url - 捕获 URL 的最佳方法是什么？

4 回答 4

Related

Reference