0

我正在创建一个网络爬虫。我想给它一个 URL,它会在目录和子目录中扫描 .html 文件。我一直在寻找两种选择:

  1. scandir($url). 这适用于本地文件,但不适用于 http 站点。这是因为文件权限吗?我猜它不应该起作用,因为每个人都可以访问您的网站文件是危险的。

  2. 搜索链接并关注它们。我可以在索引文件上执行 file_get_contents,找到链接,然后按照它们访问他们的 .html 文件。

这两种方法中的任何一种都有效还是有第三种选择?

4

2 回答 2

1

查找 html 文件的唯一方法是通过服务器返回的文件内容进行解析,除非他们在服务器上启用了目录浏览功能,这是通常禁用的第一件事,您无权访问浏览目录房源,只有他们准备给你看的内容,让你使用。

您必须启动http://www.mysite.com并继续扫描指向 html 文件的链接,如果它们有 asp/php 或其他文件然后返回 html 内容怎么办?

于 2012-04-05T09:39:15.937 回答
1

你有考虑使用wget吗?它可以抓取网站并仅下载具有特定扩展名的文件。

于 2012-04-05T09:41:00.817 回答