logging - 使用什么正确的 ETL 工具从日志信息中收集自定义数据

Question

我需要从不同类型的日志文件中收集和存储大量数据，但之前有必要过滤某些字段以仅提取必要的信息。因此，我正在考虑使用 ETL 工具为我提供垃圾服务的可能性。我的想法是构建一个基于文件连接器的解决方案，编程或自定义转换过程，最后将该解决方案部署在 linux 机器上，以便能够即时查看文件，提取所需信息并将其存储在数据库中。

所以我的问题是。有什么开源工具更适合、更灵活、更适合这个工作？

Scriptella、Kettle、Talent 还是其他？

再次，作为事实上的工具使用日志/文本文件？

男子汉的意图和目标是创建一个有效的解决方案来观察、提取日志和存储数据形式的区域日志格式。

谢谢！

score 1 · Accepted Answer

我认为最好的组合是：map-reduce 实现，如 apache hadoop 或 gridgain 或 JPPF（用于处理大型数据集）+ jdmp用于数据挖掘 + NoSQL db 用于查询和检索（neo4j 或 bigtable 等）。目前尚不清楚确切的用例是什么;-)

另请查看此链接以获取更多详细信息：您知道 hadoop 的批处理日志处理工具（zohmg 替代品）吗？

logging - 使用什么正确的 ETL 工具从日志信息中收集自定义数据

1 回答 1

Related

Reference