2

以下属性是否足够可靠以识别搜索引擎网络爬虫?

Request.Browser.Crawler

如果我的网站之前没有访问过该网站并且我获得的点击量比我的分析建议的要多,我的网站会根据页面请求创建一个新用户作为访客。- 多很多。

我使用上面的代码片段只创建合法的用户访客帐户,但我认为一些爬虫正在通过。

也许我可以使用 HttpRequest UserAgent 属性来识别它们。如果是这样,有人可以建议一个当前爬虫名称的列表,我相信例如 bing bot 是 call bingbot ,如此所述。

Request.UserAgent

更新:

我确信他们没有被使用 Request.Browser.Crawler 识别,因为来自 65.52.110.143 的请求是连环罪犯,我认为这是一个 bingbot。

4

1 回答 1

2

Request.Browser.Crawler 遗憾地过时了

您可以手动添加对其他用户代理的检测作为机器人。使用Browser Element而不是browserCaps,因为它在 .NET 2.0 中已被弃用

例子:

<browsers>
    <browser id="Googlebot" parentID="Mozilla">
        <identification>
            <userAgent match="^Googlebot(\-Image)?/(?'version'(?'major'\d+)(?'minor'\.\d+)).*" />
        </identification>
        <capabilities>
            <capability name="crawler" value="true" />
        </capabilities>
    </browser>
    .
    .
    .
</browsers>

这必须以 .browser 扩展名保存App_Browsers在应用程序的目录下。

(匹配的正则表达式列表)

于 2012-08-03T04:32:50.110 回答