php - 如何在网站目录中查找文件？

Question

我正在创建一个网络爬虫。我想给它一个 URL，它会在目录和子目录中扫描 .html 文件。我一直在寻找两种选择：

scandir($url). 这适用于本地文件，但不适用于 http 站点。这是因为文件权限吗？我猜它不应该起作用，因为每个人都可以访问您的网站文件是危险的。
搜索链接并关注它们。我可以在索引文件上执行 file_get_contents，找到链接，然后按照它们访问他们的 .html 文件。

这两种方法中的任何一种都有效还是有第三种选择？

score 1 · Accepted Answer

查找 html 文件的唯一方法是通过服务器返回的文件内容进行解析，除非他们在服务器上启用了目录浏览功能，这是通常禁用的第一件事，您无权访问浏览目录房源，只有他们准备给你看的内容，让你使用。

您必须启动http://www.mysite.com并继续扫描指向 html 文件的链接，如果它们有 asp/php 或其他文件然后返回 html 内容怎么办？

score 1 · Accepted Answer

1

你有考虑使用wget吗？它可以抓取网站并仅下载具有特定扩展名的文件。

于 2012-04-05T09:41:00.817 回答

2 回答 2