我需要解析PDF文档。我有一个Java程序来解析PDF文件。(当我解析PDF时,我使用了PDF中那些段落的字体信息。我不会将其转换为文本,因为如果我将PDF转换为文本文件我将丢失我的字体信息。所以我直接使用 Apache PDFBox 解析带有字体信息的 pdf。我使用以下代码加载 pdf 文件
String inputFile = "/home/Desktop/CTT/bcreg20130702a.pdf";
File input = new File(inputFile);
pd = PDDocument.load(input);
现在我需要编写一个 map-reduce 程序来解析 PDF 文档。我不能直接使用 PDF 文件作为 mapreduce 程序中 map() 函数的输入。我使用 WholeFileInputFormat 将整个文档作为单个拆分传递。但它给了我 BytesWritable(value) 和 filename(key)。
我也有那个 PDF 的 SequenceFileFormat。
如何将 PDFBox 与此 SequenceFileFormat 或 WholeFileInputFormat 一起使用?它还应该保留它的字体信息。没有字体信息我无法解析我的pdf。