我创建了一个关于某个啤酒品牌的网站,并且必须包含年龄验证页面。验证脚本是用 PHP 编写的,并使用会话来存储验证变量。该脚本的工作方式是,无论您尝试通过哪个链接进入网站,它都会首先将您带到验证页面。验证非常简单。有 2 个按钮:“我未满 21 岁”和“我已超过 21 岁”。如果单击后者,则可以浏览该网站。
一段时间后,我发现网络爬虫无法通过验证页面。我在谷歌网站管理员工具中检查了网站,唯一扫描的文本内容来自验证页面。
我在某处读到爬虫无法提交表单按钮,这是真的吗?
考虑到年龄验证页面无论如何都是无用的,也许我应该将它作为起始页面但不要禁止绕过它,例如从链接到子页面?