在 PubMed 数据源中,我需要将输出推送到 Kafka 队列中。每个源都可以视为一个 Kafka 主题。(我知道 Kafka 中的概念,并使用 Python 探索了 Kafka)
我可以通过 FireFTP 查看 PubMed 数据。
任何人都可以帮助如何继续前进吗?
在 PubMed 数据源中,我需要将输出推送到 Kafka 队列中。每个源都可以视为一个 Kafka 主题。(我知道 Kafka 中的概念,并使用 Python 探索了 Kafka)
我可以通过 FireFTP 查看 PubMed 数据。
任何人都可以帮助如何继续前进吗?
您将需要使用从 FTP 下载数据并将其假脱机到 Kafka 的服务。Apache Flume 正是这样做的。它很容易配置。您可以使用 FTP 的客户源https://github.com/keedio/flume-ftp-source或使用 cron 作业将文件下载到 spool 目录并让 flume 从那里获取文件。Flume 有一个非常不错的 Kafka Sink,它允许连续写入到 kafka。