0

我想制作一个使用 PDFBox 在 pdf 中搜索单词的程序。

这是我的小程序:

List<String> words ;// List of words 
        PDDocument document = PDDocument.load("D:\\INIT.pdf");              
        PDFTextStripper s = new PDFTextStripper();
        String content = s.getText(document);
        Comparing(content,words);//methode for searching those words on my text
        System.out.println(content);

但是是否可以在没有文本的情况下直接查看 PDF getText

getText返回一个字符串。如果我们在 pdf 文件中有一个大文本,这个字符串可以承载相同的文本,当文本很大并且不受 String 支持时,是否有另一种类型用于这种情况????

4

1 回答 1

1

我希望您在 PDFBox 中找到解决方案。

整个过程比看起来要困难得多。例如,PDF 文本被分成不连续的片段,并且空格通常表示为间隙而不是空格字符。既需要对片段进行抽象,也需要保留 PDF 中人类可读文本和底层片段之间的链接。这很棘手。

无论如何,如果您在 PDFBox 中找不到满意的解决方案,ABCpdf 将为您完成此操作。例如,下面的链接显示了如何在 PDF 中查找和突出显示关键字。

http://www.websupergoo.com/helppdf9net/source/8-abcpdf.operations/8-textoperation/1-methods/group.htm

我在 ABCpdf .NET 软件组件上工作,因此我的回复可能包含基于 ABCpdf 的概念。这只是我所知道的。:-)

于 2013-05-14T10:37:13.043 回答