0

我必须开发的更大目的如下:-

a) 仪表板,除了其他功能外,用户还可以上传文档(.pdf、.txt、.doc)。所有这些文件都进入一个特定的目录。

b) 用户还可以查询所有带有特定关键字标记的文档。

现在,我希望用它Hadoop来执行文档的标记。我的目标是通过使用选定单词的字典来实现这一点。现在一个.txt(或者也可能是一个.doc文件)将很容易处理。但是,据我了解,.pdf无法直接处理文件。我已经学会了如何使用Apache PDFBox. 但是我无法集成这两个,即 Hadoop 和 PDFBox。我想要做的是我的 Map-Reduce 程序接收 .txt/.pdf/.doc 文件的语料库作为输入,在 Map 开始运行之前,执行pdf to txt.

我该怎么办?我在想正确的方向吗?请帮忙。

4

1 回答 1

0

我假设您有数百万或数十亿的文档,并且您想对它们进行分类,无论是,pdf, txt, doc and so on...但您的实际问题是如何使用Apache PDFBoxMapper这里是链接如何加载用户库hadoopLINK

于 2013-07-15T03:54:46.920 回答