1

我试图通过 R 对博客文件进行分析。我很乐意处理日期和字节,只要存在数字数据但无法处理字符串。

从日志文件(CSV 格式的日志文件)中,我想找出特定用户(在 IP 和代理的帮助下)及其在网页上的总支出。

4

2 回答 2

2

有许多库可以进行这种分析,尽管我在 R 中找不到任何库。谷歌在 Perlparse apache logfile中产生了一个库,并产生了Scratchy 库。两者都依赖正则表达式来解析文件的内容。python parse apache logfile

从这里有两种方法可以处理 apache 日志文件:

  • 从 R 调用 perl 或 python,可以使用直接链接,也可以使用系统调用(这更简单)。
  • 从 perl 或 python 库中获取想法并使用它来实现 R 版本的函数。这将需要很多时间。

你指的是一个 csv 文件,但我认为上面的库可以使用带有 Apache 日志的原始文本文件,所以我会使用它们,而不是你的 csv 文件。

此外,这篇 SO 帖子提到了 @doug ( profile ) 的回答,他说他已经创建了一些函数来创建由 Python 解析的 apache 日志文件数据的可视化。也许你可以给他发消息或邮件,看看他是否愿意分享代码。

于 2012-09-22T18:04:29.520 回答
0

R 中的日志文件分析是我们之前讨论过的一个有趣的话题,你可以在这里找到我们的讨论。也许这个讨论也可以帮助你适应 SO 礼仪以获得更好的反馈(不要拿走你的任何东西,保罗)。

于 2012-10-08T09:10:05.030 回答