这是关于编写 Web 应用程序的一般问题。
我有一个计算文章页面浏览量的应用程序以及我为我的客户安装的 url 短脚本。问题是,每当机器人访问该网站时,它们往往会夸大页面浏览量。
有没有人知道如何从这些应用程序的视图计数中消除机器人视图?
有几种方法可以确定您的文章是被实际用户查看还是被搜索引擎机器人查看。可能最好的方法是检查浏览器(或机器人)发送的 User-Agent 标头。User-Agent 标头本质上是一个字段,用于标识用于访问资源的客户端应用程序。例如,Internet Explorer 可能会发送一些Mozilla/5.0 (Windows; U; MSIE 7.0; Windows NT 6.0; en-US)
. Google 的机器人可能会发送类似Googlebot/2.1 (+http://www.google.com/bot.html)
. 可以发送虚假的 User-Agent 标头,但我看不到普通网站用户或像 Google 这样的大公司这样做。如果它是空白或与商业机器人相关的常见用户代理字符串,则很可能是机器人。
当您使用它时,您可能需要确保您有一个最新的 robots.txt 文件。这是一个简单的文本文件,它提供了自动机器人应该遵守的规则,即它们不允许检索哪些内容以进行索引。
以下是一些可能有用的资源:
检查User-Agent
。使用此标头值将机器人与常规浏览器/用户区分开来。
例如,
谷歌机器人:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
苹果浏览器:
Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_3; lv-lv) AppleWebKit/531.22.7 (KHTML, like Gecko) Version/4.0.5 Safari/531.22.7