analytics - 用于衡量搜索爬虫的 Web 日志文件分析软件

Question

我需要分析在我的网站上进行的搜索引擎爬行。有没有一个很好的工具呢？我试过AWStats和Sawmill。但这两者都让我对爬行的了解非常有限。我需要知道一些信息，例如我网站的某个部分中有多少独特/不同的网页在一段时间内被特定的爬虫爬取。

由于其 javascript 跟踪机制，谷歌分析根本不跟踪抓取。

score 1 · Accepted Answer

跟随指向您网站首页的链接后，主要的搜索引擎爬虫将首先请求一个名为robots.txt的文件，该文件当然会告诉搜索爬虫网站所有者允许访问哪些页面以及哪些文件或目录可以访问。禁区。

如果您没有robots.txt怎么办？几乎总是，爬虫“解释”这意味着没有页面/目录不受限制，它将继续爬取您的整个站点。那么，如果您想要，为什么要包含 robots.txt 文件——即，让爬虫为您的整个站点编制索引？因为如果它在那里，Crawler 几乎总是会请求它以便它可以读取它——这个请求当然会在您的服务器访问日志文件中显示为一行，这对于 Crawler 来说是一个非常强大的签名。

其次，一个好的服务器访问日志解析器，例如Webalyzer或Awstats。 将用户代理和 IP 地址与已发布的权威列表进行比较：IAB ( http://www.iab.net/sites/spiders/login.php ) 和 user-agents.org 发布了两个似乎最广泛的列表用于此目的。前者每年几千美元以上；后者是免费的。

Webalyzer 和 AWStats 都可以做你想做的事，但我推荐 AWStats 的原因如下：它是最近更新的（大约一年前），而 Webalyzer 最后一次更新是在八年前。此外，AWStats 有更好的报告模板。Webalyzer 的优点是速度更快。

这是来自 AWStats 的示例输出（基于开箱即用的配置），这可能是您正在寻找的：

替代文字

analytics - 用于衡量搜索爬虫的 Web 日志文件分析软件

1 回答 1

Related

Reference