我对某人(使用许多 IP 地址)浏览我的商店有疑问:
example.com/catalog/category/view/id/$i
我打开了 URL 重写,所以通常的人类浏览看起来“友好”:
example.com/category_name.html
因此,问题是 - 如何防止使用“旧”(未重写)网址浏览商店,只允许“友好”网址?
这非常重要,因为它使用了数百个线程,这导致商店工作非常缓慢。
我对某人(使用许多 IP 地址)浏览我的商店有疑问:
example.com/catalog/category/view/id/$i
我打开了 URL 重写,所以通常的人类浏览看起来“友好”:
example.com/category_name.html
因此,问题是 - 如何防止使用“旧”(未重写)网址浏览商店,只允许“友好”网址?
这非常重要,因为它使用了数百个线程,这导致商店工作非常缓慢。
由于有许多随机 IP 地址,显然您不能只阻止来自单个或一小组地址的访问。您可能需要实现一些以某种方式唯一标识此爬虫的日志记录(可能通过浏览器代理,或者可能通过巧妙地使用 Modernizr javascript 库)。
一旦你能够区分这个爬虫的一些唯一标识符,你可能会使用一个规则.htaccess
(如果它是一个用户代理的东西)来重定向或以其他方式阻止它们消耗你的服务器的魅力。
这个 SO question 提供了有关用户代理规则的详细信息。
如果蜘蛛爬取给定模式的所有 url:
example.com/catalog/category/view/id/$i
那么你可以在.htaccess
. 重写是在内部进行的,category.html -> /catalog/category/view/id/$i
因此您只能阻止机器人。
一旦重写在那里......他们就在那里。出于多种原因,它们存储在 Mage 数据库中。一种是爬虫,例如爬取您的网站的爬虫。另一个是可能将旧页面添加为书签的用户。个人已经想出了许多方法来清理和清理您的重定向(谷歌) ......但就目前而言,在 Magento 中,一旦他们在那里,使用 Magento 就不容易管理它们。
我可能会建议生成一个新的site map
并将其提交给影响您网站的爬虫。这个爬虫不仅会爬取它不需要的大量页面,还会看到重复的内容(bad ju ju)。