hadoop - 自定义 Hadoop 映射器

Question

我必须开发的更大目的如下：-

a) 仪表板，除了其他功能外，用户还可以上传文档（.pdf、.txt、.doc）。所有这些文件都进入一个特定的目录。

b) 用户还可以查询所有带有特定关键字标记的文档。

现在，我希望用它Hadoop来执行文档的标记。我的目标是通过使用选定单词的字典来实现这一点。现在一个.txt（或者也可能是一个.doc文件）将很容易处理。但是，据我了解，.pdf无法直接处理文件。我已经学会了如何使用Apache PDFBox. 但是我无法集成这两个，即 Hadoop 和 PDFBox。我想要做的是我的 Map-Reduce 程序接收 .txt/.pdf/.doc 文件的语料库作为输入，在 Map 开始运行之前，执行pdf to txt.

我该怎么办？我在想正确的方向吗？请帮忙。

score 0 · Accepted Answer

我假设您有数百万或数十亿的文档，并且您想对它们进行分类，无论是，pdf, txt, doc and so on...但您的实际问题是如何使用Apache PDFBox，Mapper这里是链接如何加载用户库hadoop：LINK

hadoop - 自定义 Hadoop 映射器

1 回答 1

Related

Reference