如果我要将 Zookeeper 用作工作队列并将其连接到单个消费者/工作人员。您会推荐什么作为记录这些工人活动的良好分布式设置?
假设如下:
1)在任何时候,我们都可以减少到 1 台容纳 hadoop 集群的计算机。该系统将根据需要自动扩展和缩减,但在只需要一台计算机的情况下有很多停机时间。
2)我只需要能够访问所有工作人员日志而不访问工作人员所在的单个机器。请记住,当我阅读这些日志之一时,这台机器很可能会被终止并且早已不复存在。
3)我们需要轻松访问日志,即能够 cat/grep 和 tail 或者以更 SQLish 的方式 - 我们需要实时查询以及在短时间内实时监控输出时间。(即tail -f /var/log/mylog.1)
我在这里感谢您的专家想法!
谢谢。