我正在创建一个网络爬虫。我想给它一个 URL,它会在目录和子目录中扫描 .html 文件。我一直在寻找两种选择:
scandir($url)
. 这适用于本地文件,但不适用于 http 站点。这是因为文件权限吗?我猜它不应该起作用,因为每个人都可以访问您的网站文件是危险的。搜索链接并关注它们。我可以在索引文件上执行 file_get_contents,找到链接,然后按照它们访问他们的 .html 文件。
这两种方法中的任何一种都有效还是有第三种选择?
我正在创建一个网络爬虫。我想给它一个 URL,它会在目录和子目录中扫描 .html 文件。我一直在寻找两种选择:
scandir($url)
. 这适用于本地文件,但不适用于 http 站点。这是因为文件权限吗?我猜它不应该起作用,因为每个人都可以访问您的网站文件是危险的。
搜索链接并关注它们。我可以在索引文件上执行 file_get_contents,找到链接,然后按照它们访问他们的 .html 文件。
这两种方法中的任何一种都有效还是有第三种选择?
查找 html 文件的唯一方法是通过服务器返回的文件内容进行解析,除非他们在服务器上启用了目录浏览功能,这是通常禁用的第一件事,您无权访问浏览目录房源,只有他们准备给你看的内容,让你使用。
您必须启动http://www.mysite.com并继续扫描指向 html 文件的链接,如果它们有 asp/php 或其他文件然后返回 html 内容怎么办?
你有考虑使用wget
吗?它可以抓取网站并仅下载具有特定扩展名的文件。