我如何使用 Apache Camel 读取/解析 pdf 文件。任何特定的示例或代码片段来解析文件??感谢你的帮助。
提前致谢。
您可以使用Apache Tika 项目从 PDF 文件中提取数据。它是从各种类型的文档中提取数据的通用工具。它在 PDF 的引擎盖下使用 PDFBox。
Camel 根本不是解析任何文件。您可能想看看Apache PDFBox
有一个 camel-fop 组件:http ://camel.apache.org/fop但它仅用于呈现 pdf 文件。不支持解析 pdf 文件。
实际上使用骆驼的组件pdf,您实际上也可以提取文本,您可以在此处查看如何执行此操作的示例:https ://github.com/apache/camel/blob/master/components/camel-pdf/src/测试/java/org/apache/camel/component/pdf/PdfTextExtractionTest.java
该组件基于 Apache PDFBox: https ://camel.apache.org/components/latest/pdf-component.html