我发现这个问题非常有趣:Programmatic Bot Detection 我有一个非常相似的问题,但我并不担心“行为不端的机器人”。
每次访问我都会跟踪(除了谷歌分析)以下内容:
- 输入网址
- 推荐人
- 用户代理
- Adwords(通过查询字符串)
- 用户是否购买
- 等等
问题是,为了计算任何类型的转化率,我最终都会得到大量“机器人”访问,这些访问极大地扭曲了我的结果。
我想忽略尽可能多的机器人访问,但我想要一个不需要太密切监视的解决方案,而且它本身不会成为性能问题,如果有人禁用了 javascript,最好仍然可以工作。
有没有好的公布的前 100 名机器人列表?我确实在http://www.user-agents.org/找到了一个列表,但它似乎包含数百个甚至数千个机器人。我不想检查每个引用者与数千个链接。
这是当前的 googlebot UserAgent。它多久改变一次?
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)