0

我需要从不同类型的日志文件中收集和存储大量数据,但之前有必要过滤某些字段以仅提取必要的信息。因此,我正在考虑使用 ETL 工具为我提供垃圾服务的可能性。我的想法是构建一个基于文件连接器的解决方案,编程或自定义转换过程,最后将该解决方案部署在 linux 机器上,以便能够即时查看文件,提取所需信息并将其存储在数据库中。

所以我的问题是。有什么开源工具更适合、更灵活、更适合这个工作?

Scriptella、Kettle、Talent 还是其他?

再次,作为事实上的工具使用日志/文本文件?

男子汉的意图和目标是创建一个有效的解决方案来观察、提取日志和存储数据形式的区域日志格式。

谢谢!

4

1 回答 1

1

我认为最好的组合是:map-reduce 实现,如 apache hadoop 或 gridgain 或 JPPF(用于处理大型数据集)+ jdmp用于数据挖掘 + NoSQL db 用于查询和检索(neo4j 或 bigtable 等)。目前尚不清楚确切的用例是什么;-)

另请查看此链接以获取更多详细信息:您知道 hadoop 的批处理日志处理工具(zohmg 替代品)吗?

于 2010-11-11T03:17:07.513 回答