我正在尝试使用 Apache ManifoldCF 上的 Apache Tika 集成来提取 PDF 的文本内容,以便在 Elasticsearch 服务器中的笔记本电脑上摄取一些 PDF 文件。
在我的工作中正确创建 Tika Transformer 并对其进行配置后,我看到 ES 上的结果字段“_content”填充了文件的二进制编码,而不是文本。
我也看到了这个:使用 ManifoldCF 提取文件内容,但仍然没有提供答案(自 2015 年以来!)。
有谁能够帮我?
谢谢!
我正在尝试使用 Apache ManifoldCF 上的 Apache Tika 集成来提取 PDF 的文本内容,以便在 Elasticsearch 服务器中的笔记本电脑上摄取一些 PDF 文件。
在我的工作中正确创建 Tika Transformer 并对其进行配置后,我看到 ES 上的结果字段“_content”填充了文件的二进制编码,而不是文本。
我也看到了这个:使用 ManifoldCF 提取文件内容,但仍然没有提供答案(自 2015 年以来!)。
有谁能够帮我?
谢谢!