我必须处理 PDF 文档。Bigdata 中是否有任何工具可以处理我的 pdf 文档(半结构化数据)?例如.. 如果我的 PDF 文档包含任何主题,如摘要或操作,我必须在没有任何页脚的情况下检索这些段落。现在我正在使用 pdfBox 和 java API 来提取我的 pdf 文档,但是是否有任何大数据工具可用于进行相同的提取?
问问题
139 次
1 回答
0
我不知道有什么工具可以做你想做的事,但如果你可以设置 Hadoop 集群(或使用 Amazon AWS 服务),那么你可以轻松地使用 Hadoop 流通过用户定义的程序(你在java中应该可以正常工作)。
在这个较早的 SO question中有一个很好的示例,说明了如何将 Hadoop 流与自定义 Java 程序一起使用。
于 2013-08-27T18:18:25.503 回答