0

我想知道高流量网站如何处理流量记录,例如像 myspace.com 这样的网站收到很多点击,我可以想象记录所有这些请求需要很多空间,所以,他们记录每个请求还是如何记录他们处理这个吗?

4

7 回答 7

3

如果您在 MySpace 页面上查看源代码,您会得到答案:

<script type="text/javascript">
var pageTracker = _gat._getTracker("UA-6293770-1");
pageTracker._setDomainName(".myspace.com");
pageTracker._setSampleRate("1"); //sets sampling rate to 1 percent
pageTracker._trackPageview(); 
</script>

该脚本意味着他们正在使用 Google Analytics。

他们不能只使用 IIS 日志来衡量流量,因为他们可能会向第三方出售广告,而第三方不会相信您获得的流量。他们想要来自一家独立公司的独立数据,而这正是谷歌分析的用武之地。

仅供将来参考 - 每当您对网站如何做某事有疑问时,请尝试查看源代码。你会惊讶于你能在平淡的视野中找到什么。

于 2009-01-27T12:13:00.077 回答
3

我们在没有数百人使用的 Intranet 时遇到了类似的问题。磁盘活动很大,性能受到损害。

简短的回答是异步非阻塞日志记录。

于 2009-01-27T12:19:26.273 回答
1

可能像谷歌分析。

使用 Javascript 在不同的服务器上加载页面等。

于 2009-01-26T22:05:56.730 回答
0

ZXTM流量整形和日志记录,这里从经验谈起

于 2009-01-27T12:16:50.600 回答
0

如果他们没有记录每个请求,我会感到非常惊讶,是的,并且流量特别高的操作通常会以某种形式针对原始服务器日志滚动他们自己的日志管理解决方案 - 有时是简单的批处理-型进程,有时作为完整的子系统。

我工作的一家公司,在互联网的全盛时期,每天的网页浏览量超过 2000 万次;对于那个站点(实际上是一组,我记得总共在几十台机器上运行),我们的运维团队用 C 语言编写了一个非常复杂的集群解决方案,它可以解析、翻译(到关系存储)、压缩和分发每天记录。日志文件,尤其是冗长的文件,堆积得很快,而当时可用的商业解决方案根本无法解决。

于 2009-01-27T18:36:45.530 回答
0

不要他们如何跟踪它,因为我不在那里工作。我很确定他们有足够的存储空间来记录他们用户的每一件小事,如果他们愿意的话。

如果我是他们,如果我只是想了解有关我的用户的基本信息,我会使用 AwStats。他们更有可能开发了自己的脚本来跟踪用户。他们会记录的东西 -ip_address
-referrer
-time
-browser
-OS

等等。然后是一个脚本,用于查看有关用户的不同数据,这些数据按天、周或月变化。正如 brulak 所说,类似于分析的东西,但由于他们可以访问实际的数据库,他们可以了解更多关于他们的用户的信息。

于 2009-01-27T00:09:44.033 回答
0

如果通过日志记录您的意思是收集与服务器相关的信息(请求和响应时间、每个请求的 db 和 cpu 使用率等),我认为他们只对 10% 或 1% 的流量进行采样。这会产生相同的结果(为开发人员提供审计信息),而无需填充磁盘或减慢站点速度。

于 2009-12-09T17:33:52.437 回答