java - 是否有任何 Bigdata 工具来处理 pdf 文档

Question

我必须处理 PDF 文档。Bigdata 中是否有任何工具可以处理我的 pdf 文档（半结构化数据）？例如.. 如果我的 PDF 文档包含任何主题，如摘要或操作，我必须在没有任何页脚的情况下检索这些段落。现在我正在使用 pdfBox 和 java API 来提取我的 pdf 文档，但是是否有任何大数据工具可用于进行相同的提取？

score 0 · Accepted Answer

我不知道有什么工具可以做你想做的事，但如果你可以设置 Hadoop 集群（或使用 Amazon AWS 服务），那么你可以轻松地使用 Hadoop 流通过用户定义的程序（你在java中应该可以正常工作）。

在这个较早的 SO question中有一个很好的示例，说明了如何将 Hadoop 流与自定义 Java 程序一起使用。

java - 是否有任何 Bigdata 工具来处理 pdf 文档

1 回答 1

Related

Reference