0

它如何自动扫描所有可用页面?

我能想到的一种方法是从主页递归扫描它。

但它无法扫描出后端 CMS 。

那么这些扫描工具是如何工作的呢?

4

1 回答 1

1

愚蠢的网络爬虫:

首先创建一个数组来存储链接,然后自己在其中放置一个 URL。创建第二个空数组来存储访问过的 URL。现在启动一个执行以下操作的程序。

  1. 读取并删除链接数组中的第一项
  2. 在该 URL 下载网页
  3. 解析链接标签的 HTML,将找到的所有链接添加到链接数组
  4. 将网页 URL 添加到访问的 URL 数组中
  5. 转到 1

如果您假设通过一些随机链接(可能数十亿)可以访问网络上的每个页面,那么简单地重复步骤 1 到 4 最终将导致下载整个网络。由于网络实际上并不是一个完全连接的图,因此您必须从不同的点开始该过程以最终到达每个页面。

于 2011-02-08T06:58:17.957 回答