我有很多来自运行网络测试的文本报告和日志文件。我想将这些报告和日志存储在数据存储中,我可以在其中解析它们并根据解析的数据运行报告。我还希望这个系统在它接受的报告和日志类型以及它可以用于的数据量和查询/报告方面都是可扩展的。
一位同事建议Hadoop
可能满足这一需求,我组织中的另一个团队说他们Cassandra
用于类似的项目(但数据更多,大部分是机器生成的)。我一直在阅读Hadoop and Cassandra
,我真的不确定使用类似的东西是否会过大,以及每个日志/报告类型具有自定义解析器的关系数据库是否会更加理智。
根据Hadoop
我MapReduce
对Cassandra
. 我也读过一点 about Hive
,听起来可能有用,但我没有深入研究它。
在我的情况下使用 Hadoop 或 Cassandra(或其他东西)有什么好处(如果有的话)?
任何形式的建议将不胜感激。