0

LOGSTASH 可以从某个位置读取 PDF 文件并提取其中的内容,然后将此内容发送到目的地(KAFKA)吗?

据我所知,LOGSTASH 可以读取 .TXT 或 .LOG 或 .CSV 文件,但我不确定它是否能够读取 PDF 中的内容。

这条线上的任何建议都会有所帮助。

如果没有,kafka 有这个能力吗?是否可以从 APACHE KAFKA 读取 PDF 内容?

4

1 回答 1

1

Logstash 没有 PDF 输入过滤器。最好的办法是找到一个可以在 PDF 文件中为您提供文本的程序。这个问题可能会有所帮助:如何从 PDF 中提取文本?

然后,您可以设置一些生成 PDF 文本版本的东西,然后使用 logstash 将它们索引到 elasticsearch。

于 2017-02-08T04:19:28.590 回答