0

我对某人(使用许多 IP 地址)浏览我的商店有疑问:

example.com/catalog/category/view/id/$i

我打开了 URL 重写,所以通常的人类浏览看起来“友好”:

example.com/category_name.html

因此,问题是 - 如何防止使用“旧”(未重写)网址浏览商店,只允许“友好”网址?

这非常重要,因为它使用了数百个线程,这导致商店工作非常缓慢。

4

3 回答 3

1

由于有许多随机 IP 地址,显然您不能只阻止来自单个或一小组地址的访问。您可能需要实现一些以某种方式唯一标识此爬虫的日志记录(可能通过浏览器代理,或者可能通过巧妙地使用 Modernizr javascript 库)。

一旦你能够区分这个爬虫的一些唯一标识符,你可能会使用一个规则.htaccess(如果它是一个用户代理的东西)来重定向或以其他方式阻止它们消耗你的服务器的魅力。

这个 SO question 提供了有关用户代理规则的详细信息。

使用 htaccess 阻止特殊目录的所有机器人/爬虫/蜘蛛

于 2013-02-26T20:19:36.913 回答
1

如果蜘蛛爬取给定模式的所有 url:

example.com/catalog/category/view/id/$i

那么你可以在.htaccess. 重写是在内部进行的,category.html -> /catalog/category/view/id/$i因此您只能阻止机器人。

于 2013-02-26T22:19:55.927 回答
0

一旦重写在那里......他们就在那里。出于多种原因,它们存储在 Mage 数据库中。一种是爬虫,例如爬取您的网站的爬虫。另一个是可能将旧页面添加为书签的用户。个人已经想出了许多方法来清理和清理您的重定向(谷歌) ......但就目前而言,在 Magento 中,一旦他们在那里,使用 Magento 就不容易管理它们。

我可能会建议生成一个新的site map并将其提交给影响您网站的爬虫。这个爬虫不仅会爬取它不需要的大量页面,还会看到重复的内容(bad ju ju)。

于 2013-02-26T20:22:00.337 回答