我正在尝试找到收集 URL 的最佳方法,我可以创建自己的小型爬虫,但我的服务器需要数十年才能爬取所有 Internet,并且所需的带宽会很大。另一个想法是使用 Google 的 Search API 或 Yahoo 的 Search API,但这并不是一个很好的解决方案,因为它需要在我得到结果之前执行搜索。
其他想法包括询问 DNS 服务器和请求 URL 列表,但 DNS 服务器可以限制/限制我的请求,甚至一起禁止我。目前我对询问 DNS 服务器的知识非常有限,所以我不知道这是否是最好的方法。
我只想要一个庞大的 URL 列表,但我想在将来构建这个列表而不会遇到砖墙。有什么想法吗?
我开始这个项目是为了学习 Python,但这与问题无关。