3

机器人。讨厌他们。

我需要完成的工作 像其他人一样,我想计算内容片段被推荐或显示为链接的次数,而这些数字不会被网络机器人人为夸大。

为什么我们不能仅仅依靠 Google Analytics GA 可以很好地验证他们报告的数字,但是他们只报告主 url,而不是“相关项目”,因为每个页面查看/每个用户的“相关项目”不同,我们需要自己跟踪这些。

GA 是一个很好的标准,我们可以对照它来控制我们的数据,但仅此而已。

到目前为止我所做的

  • 经过身份验证的用户永远不会被打扰 防火墙维护 IP 地址黑名单
  • 应用程序跟踪已知机器人
  • 每晚汇总作业拖网我们的日志,寻找以下信号:
  • 持续的请求突发(每秒高页数超过 x 秒)
  • 请求块 IP 地址块(xyz245、.246、.247、.248 等不能巧合地同时遍历我们的内容)
  • 登陆页面的模式+每个页面的请求,按顺序,快速连续(人类很少阅读每篇文章,而且不是那么快)

我在寻找什么 不是模糊的建议,而是可操作的算法,或最佳实践,或描述方法实际实施方式的文章,至少包含一些伪代码片段。我不希望得到灵丹妙药,但我知道有一些方法可以解决我没有见过的这个问题。我只需要看一个好的白皮书或其他东西。

我看过一百万次的东西

  • “我们公司通过浏览器挑战和后端分析实施了一种多层次的方法,等等等等”听起来很棒,我相信投资者喜欢它,一个实际的例子怎么样?
  • 厌倦了 CIO-Speak。“我们在表单上设置了隐藏字段,这叫做蜜罐!”

任何实际可行的事情将不胜感激!!!

4

0 回答 0