我是 R 新手,我的问题是我知道我需要做什么,只是不知道如何在 R 中完成。我有一个来自 Web 服务负载测试的非常大的数据框,大约 20M 观察。我有以下变量:
epochtime, uri, cache (hit or miss)
我想我需要做一些事情。我需要对前 50 个不同 URI 的数据帧进行子集化,然后为每个子集中的每个观察值计算该时间点的缓存命中百分比。最终目标是按 URI 随时间变化的缓存命中/未命中百分比图
我已经阅读,并且仍在阅读关于这个主题的各种帖子,但 R 是相当新的,我有一个截止日期。我会很感激我能得到的任何帮助
编辑:
我无法提供准确的数据,但它看起来像这样,我从 Mongo 数据库中检索到的至少 20M 观察结果。时间是一个时代,我们每秒记录数千个,所以时间有很多骗局,这是意料之中的。可能有超过 50 个 uri,我只关心前 50 个。最终结果将是 % TCP_HIT 与 URI 的总出现时间的线图。希望那更清楚
time uri action
1355683900 /some/uri TCP_HIT
1355683900 /some/other/uri TCP_HIT
1355683905 /some/other/uri TCP_MISS
1355683906 /some/uri TCP_MISS