2

有没有办法制作一个像 websiteoutlook.com 这样的网络机器人?我需要只在互联网上搜索 URL 的东西……我不需要链接、描述等。

在不涉及太多技术的情况下,最好的方法是什么?我猜它甚至可能是一个运行 PHP 脚本并从 Google 抓取 URL 的 cronjob,还是有更好的方法?

一个简单的例子或更多信息的链接将不胜感激。

4

2 回答 2

0

我刚刚快速浏览了您提到的网站 - 它似乎为一个域获取信息,而不是抓取网址。

无论如何,您将编写一个脚本,该脚本从队列中获取 url,获取页面内容,解析其中的 url 并将它们添加到队列中。然后将起始 url 添加到队列中并将脚本作为 crontab 运行。

于 2010-03-21T23:57:00.180 回答
0

可以在 中找到大约 400 万个唯一 URL DMOZ.org。允许以不超过每秒 1 页的频率爬取目录。作为爬虫,您可以使用网站下载软件,如 HTTrack(它支持遵守robots.txt规则的选项)。您所要做的就是解析下载的页面以获取 URL(然后正确归因于该站点)。

于 2010-03-22T04:08:37.567 回答