1

使用网站抓取器可以下载具有文件夹结构的整个网站。有什么办法可以防止这种情况发生吗?如果是这样,怎么做?

4

2 回答 2

3

保护网站标记的唯一方法是不发布它。如果您希望您的用户看到他们需要获取 HTML 标记和图像的内容,则应该显示这些内容。因此这些文件需要是可访问的。如果您的文件可以访问,每个用户/机器人/爬虫/抓取器都可以保存这些文件。

于 2013-10-04T09:16:54.180 回答
0

最好的办法是在主目录下放几个像索引页这样的文件,然后在里面调用其他的子页。如果使用 php,那么您可以执行以下操作。

假设将 index.php 保存在主文件夹中,并将 homepage.php 保存在名为 include 的目录中,并通过 php 中的 include 函数使用 index.php 中的主页。

现在将 .htaccess 文件添加到必须包含“deny from all”的包含文件夹中

这样,用户可以使用该页面,但不能直接访问文件。抓取者也是如此。

于 2015-12-24T13:28:31.757 回答