3

我知道这与编程无关,但我希望一些反馈可以帮助我摆脱困境。

实际上,我们的 Web 应用程序有很多不同的数据,这些数据可以追溯到几年前。

例如,我们已经

  • Apache 日志文件
  • 来自我们的跟踪软件 (CSV) 的每日统计文件
  • 另一项来自全国广告排名(CSV)的每日统计数据
  • ..我也可以从其他来源产生新数据。

一些数据记录始于 2005 年,一些始于 2006 年,等等。但是在某个时间点,我们开始拥有所有这些数据。

我的梦想是什么^H^H^H^H正在搜索是一个理解所有数据的应用程序,让我加载它们,比较单个数据集和时间线(以图形方式),比较同一时间跨度内的不同数据集,请允许我过滤(尤其是 Apache 日志文件);当然,这一切都应该是交互式的。

仅 BZ2 压缩的 Apache 日志文件就已经总计 21GB,并且每周都在增长。

我在 awstats、Nihu Web Log Analyzer 或类似工具方面没有取得真正的成功。他们只能产生静态信息,但我需要交互式查询信息、应用过滤器、覆盖其他数据等。

我也尝试过数据挖掘工具,希望它们能帮助我,但并没有真正成功地使用它们(即它们超出了我的想象),例如 RapidMiner。

只是为了确保:它可以是商业应用程序。但是还得找到真正有用的东西。

不知何故,我得到的印象是我正在寻找不存在的东西,或者我有错误的方法。任何提示都非常受欢迎。

更新:

最后,我混合了以下内容:

  • 编写 bash 和 PHP 脚本来解析和管理解析日志文件,包括许多过滤功能
  • 生成普通的旧 CSV 文件以读入 Excel。我很幸运使用 Excel 2007,它的图形功能,虽然仍在处理一组固定的数据,但帮助很大
  • 我使用 Amazon EC2 运行脚本并通过电子邮件将 CSV 发送给我。我不得不爬取大约 200GB 的数据,因此使用其中一个大型实例来并行化解析。我必须执行多次解析尝试才能正确获取数据,总处理时间为 45 分钟。如果没有 Amazon EC2,我不知道我能做什么。我为此付出的每一分钱都是值得的。
4

4 回答 4

1

Splunk 就是针对这类事情的产品。我自己还没有用过。 http://www.splunk.com/

于 2009-04-14T23:03:40.413 回答
1

开源数据挖掘和网络挖掘软件RapidMiner可以导入 Apache Web 服务器日志文件以及 CSV 文件,还可以导入和导出 Excel 表格。Rapid-I 为 RapidMiner 提供了很多培训课程,其中一些还涉及网络挖掘和网络使用挖掘。

于 2009-09-06T18:31:38.353 回答
0

In the interest of full disclosure, I've not used any commercial tools for what your describing.

Have you looked at LogParser? It might be more manual than what your looking for, but it will allow you to query many different structured formats.

As for the graphical aspect of it, there is some basic charting capabilities built in, but your likely to get much more mileage piping the log parser output into a tabular/delimited format and loading into Excel. From there you can chart/graph just about anything.

As for cross joining different data sources, you can always pump all the data into the database where you'll have a richer language for querying the data.

于 2009-04-15T02:12:41.207 回答
0

您正在寻找的是一个“数据挖掘框架”,即可以愉快地吃掉几千兆字节的随机数据,然后让您以未知的方式对其进行切片,以找到深埋在静态内部的金块.

一些链接:

  • CloudBase:“CloudBase 是建立在 Map-Reduce 架构之上的高性能数据仓库系统。它使业务分析师能够使用 ANSI SQL 直接查询网站、电信或 IT 运营中产生的大规模日志文件。”

  • RapidMiner:“RapidMiner aleady 是一个完整的数据挖掘和商业智能引擎,它还涵盖了许多相关方面,从 ETL(提取、转换和加载)到分析再到报告。”

于 2009-04-27T14:18:45.573 回答