0

我想为我的服务器制作一个系统监控应用程序,它每分钟为各种应用程序(如 mysql、memcached、apache 等)收集超过 30k 个数据点。我想知道哪个平台对此类应用程序最有帮助。我的主要选择是 HBase 和 Cassandra。

如果我必须使用 HBase,那么查询的行键应该是什么,该查询必须回答诸如特定 ip 或主机名或运行特定应用程序或特定数据中心或特定集群的所有机器之类的问题。鉴于所有参数在相当长的一段时间内都是变化的,识别特定机器的唯一方法是它的 UUID。也不必根据 uuid 查询,而是根据它的 ip 或应用程序类型和应用程序和进程来查询。

由于在 hbase 中查询汇总和向下钻取查询并不容易,因此在 cassandra 中很容易。在设计这样一个系统时,我的偏好应该是什么。还有哪些平台可以选择?

还请指定此类系统的设计规范和数据模式

4

1 回答 1

0

我认为Splunk正是您正在寻找的。他们专门使用大数据技术收集和分析日志文件。他们还提供免费版本,当然是有限的。

如果您想使用开源软件,我建议将您的任务分为两部分:a)存储,b)查询/分析。“拆分”方法的优点是您可以在之后选择合适的分析系统。

对于 a) 我建议使用 HDFS 和日志文件收集器,例如FlumeChuckwa。您还可以对这些系统进行一些预过滤。

对于 b) 查看 Hive、Drill 或 Spark 等系统。我不确定 HBase 是否是最好的主意,因为您从一开始就限制了分析的范围。

于 2014-01-15T13:14:47.057 回答