我对大数据完全陌生,从最近几周开始,我正在尝试构建日志分析应用程序。
我阅读了很多文章,发现 Kafka + spark streaming 是最可靠的配置。
现在,我可以处理从我的简单 kafka java 生产者发送到 spark Streaming 的数据。
有人可以提出一些建议,例如 1)我如何实时读取服务器日志并将其传递给 kafka 经纪人。2) 任何可用于将数据从日志推送到 Kafka 的框架?3)还有其他建议吗?
谢谢,乔达里
我对大数据完全陌生,从最近几周开始,我正在尝试构建日志分析应用程序。
我阅读了很多文章,发现 Kafka + spark streaming 是最可靠的配置。
现在,我可以处理从我的简单 kafka java 生产者发送到 spark Streaming 的数据。
有人可以提出一些建议,例如 1)我如何实时读取服务器日志并将其传递给 kafka 经纪人。2) 任何可用于将数据从日志推送到 Kafka 的框架?3)还有其他建议吗?
谢谢,乔达里
有很多方法可以收集日志并发送到 Kafka。如果您希望将日志文件作为事件流发送,我建议您查看 Logstash/Filebeats - 只需将您的输入设置为文件输入并输出到 Kafka。
您还可以使用 log4j KafkaAppender 将数据推送到 Kafka,或者使用许多已经可用的 CLI 工具将日志通过管道传输到 Kafka。
如果需要保证顺序,请注意分区配置和分区选择逻辑。例如,log4j appender 将在所有分区中分发消息。由于 Kafka 仅保证每个分区的顺序,因此您的 Spark 流作业可能会开始处理不按顺序的事件。