我正在尝试监控真正的页面点击量。这是我的网站所做的。我有一个文章目录,人们可以在其中发布文章。当他们的文章发布时,他们的报酬取决于访问其页面的唯一用户数量。所以页面点击很重要。这是我面临的问题。
我需要的:
- 我不想跟踪小型搜索引擎或机器人的页面点击量。
- 我希望主要的 4 个搜索引擎浏览我的网站,因为我可以通过 IP 地址监控它们,而不会将它们的访问计为页面点击。垃圾邮件机器人无法做到这一点,因为它们可以很好地作为真正的人类或主要搜索引擎传递。
问题:
- 互联网上有不尊重 robots.txt 文件的垃圾邮件机器人
- 有些机器人试图伪装成真正的人类用户。通过操作标头中的用户代理和其他内容。
- 总是检查数据库是否有良好的 IP 地址可能会影响性能
- 一个人可以绕过验证码,只允许他们的机器人查看我的页面
可能的解决方案:
- 每页都需要验证码。如果验证码通过。然后将 IP 地址记录为良好,或在用户机器上提交一个 cookie,表明他们通过了。
- 允许所有主要搜索引擎的 IP 地址,因此它们不会显示验证码
- 购买机器人检测软件
- 要求观众每 7 天通过一次验证码
获得准确的人工页面浏览量对于该站点的正常运行至关重要。大家有没有其他想法