我必须开发的更大目的如下:-
a) 仪表板,除了其他功能外,用户还可以上传文档(.pdf、.txt、.doc)。所有这些文件都进入一个特定的目录。
b) 用户还可以查询所有带有特定关键字标记的文档。
现在,我希望用它Hadoop
来执行文档的标记。我的目标是通过使用选定单词的字典来实现这一点。现在一个.txt
(或者也可能是一个.doc
文件)将很容易处理。但是,据我了解,.pdf
无法直接处理文件。我已经学会了如何使用Apache PDFBox
. 但是我无法集成这两个,即 Hadoop 和 PDFBox。我想要做的是我的 Map-Reduce 程序接收 .txt/.pdf/.doc 文件的语料库作为输入,在 Map 开始运行之前,执行pdf to txt
.
我该怎么办?我在想正确的方向吗?请帮忙。