我们在 drupal 中构建了一个大型社区网站,在您访问网站内容之前,该网站有一个强制性的年龄检查
它检查是否存在 cookie,如果不存在,您将被重定向到 agecheck 页面。
现在我们相信爬虫会卡在这部分,他们会被重定向到年龄检查,并且永远无法爬取整个网站。
有没有人有过这个?处理这样的事情的最佳方法是什么?
桑德
编辑
我很抱歉现在只提到这一点,爬虫的问题之一是,当社区中的某个人在 Facebook 上的墙上发布一些东西时,Facebook 会爬回页面以获取图像和描述(在元标记中指定)但是facebook 也被重定向到 agecheck 页面。如果我添加 facebook 爬虫,useragentcheck 会起作用吗?如果是这样:那么有人会知道 facebook 爬虫的确切名称吗?
下面的解决方案也是我们在网上遇到的一个问题。如果将 facebook 爬虫添加到该列表中有效,那么它将解决我们在此 agecheck 页面上遇到的所有问题。