目前尚不清楚您是否可以像在 Flume 中那样在 Kafka 中进行扇出(复制)。
我想让 Kafka 将数据保存到 HDFS 或 S3 并将该数据的副本发送到 Storm 以进行实时处理。Storm 聚合/分析的输出将存储在 Cassandra 中。我看到一些实现将所有数据从 Kafka 流入 Storm,然后从 Storm 流出两个输出。但是,我想消除 Storm 对原始数据存储的依赖。
这可能吗?您是否知道任何这样的文档/示例/实现?
另外,Kafka 对 S3 存储有很好的支持吗?
我看到 Camus 用于存储到 HDFS——你只是通过 cron 运行这项工作来不断地将数据从 Kafka 加载到 HDFS 吗?如果第二个作业实例在前一个作业完成之前开始,会发生什么?最后,Camus 会与 S3 一起工作吗?
谢谢,我很感激!