在被较早的问题难住之后:SO google-analytics-domain-data-without-filtering
我一直在试验我自己的一个非常基本的分析系统。
MySQL 表:
hit_id, subsite_id, timestamp, ip, url
subsite_id 让我深入到一个文件夹(如上一个问题中所述)。
我现在可以获得以下指标:
- 页面浏览量 - 按 subsite_id 和日期分组
- 唯一页面浏览量 - 按 subsite_id、日期、url、IP 分组(不一定 Google 是如何做到的!)
- 通常的“访问最多的页面”、“可能访问的时间”等。
我现在将我的数据与 Google Analytics 中的数据进行了比较,发现Google 每个指标的值都较低。即,我自己的设置比 Google 计算的点击次数更多。
所以到目前为止,我已经开始对各种网络爬虫、谷歌、雅虎和 Dotbot 的 IP 进行打折。
简短的问题:
- 是否值得我整理所有主要爬虫的列表以进行折扣,是否有可能定期更改的列表?
- 谷歌还会对 GA 数据应用其他明显的过滤器吗?
- 您会收集哪些其他数据可能会在以后使用?
- Google 使用哪些变量来计算网站的入口搜索关键字?
这些数据只会在内部用于我们自己的“子网站排名系统”,但我想向我的用户展示一些基本数据(页面浏览量、最受欢迎的页面等)以供他们参考。