我知道这与编程无关,但我希望一些反馈可以帮助我摆脱困境。
实际上,我们的 Web 应用程序有很多不同的数据,这些数据可以追溯到几年前。
例如,我们已经
- Apache 日志文件
- 来自我们的跟踪软件 (CSV) 的每日统计文件
- 另一项来自全国广告排名(CSV)的每日统计数据
- ..我也可以从其他来源产生新数据。
一些数据记录始于 2005 年,一些始于 2006 年,等等。但是在某个时间点,我们开始拥有所有这些数据。
我的梦想是什么^H^H^H^H正在搜索是一个理解所有数据的应用程序,让我加载它们,比较单个数据集和时间线(以图形方式),比较同一时间跨度内的不同数据集,请允许我过滤(尤其是 Apache 日志文件);当然,这一切都应该是交互式的。
仅 BZ2 压缩的 Apache 日志文件就已经总计 21GB,并且每周都在增长。
我在 awstats、Nihu Web Log Analyzer 或类似工具方面没有取得真正的成功。他们只能产生静态信息,但我需要交互式查询信息、应用过滤器、覆盖其他数据等。
我也尝试过数据挖掘工具,希望它们能帮助我,但并没有真正成功地使用它们(即它们超出了我的想象),例如 RapidMiner。
只是为了确保:它可以是商业应用程序。但是还得找到真正有用的东西。
不知何故,我得到的印象是我正在寻找不存在的东西,或者我有错误的方法。任何提示都非常受欢迎。
更新:
最后,我混合了以下内容:
- 编写 bash 和 PHP 脚本来解析和管理解析日志文件,包括许多过滤功能
- 生成普通的旧 CSV 文件以读入 Excel。我很幸运使用 Excel 2007,它的图形功能,虽然仍在处理一组固定的数据,但帮助很大
- 我使用 Amazon EC2 运行脚本并通过电子邮件将 CSV 发送给我。我不得不爬取大约 200GB 的数据,因此使用其中一个大型实例来并行化解析。我必须执行多次解析尝试才能正确获取数据,总处理时间为 45 分钟。如果没有 Amazon EC2,我不知道我能做什么。我为此付出的每一分钱都是值得的。