2

如何在java中的pdfbox API中获取包含pdf中特定单词的页码?

我能够阅读单词:

PDFTextStripper s = new PDFTextStripper();
String contents = s.getText(pdoc);  
if(contents.contains("SUBSCRIPTION DETAILS")){
...
}

但无法找到包含该词的页码

提前致谢。

4

1 回答 1

3

PDFTextStripper允许您阅读准确的页面。因此,您需要遍历所有页面并检查页面是否包含某些字符串:

PDDocument pdoc = ...;
for(int pageNumber = 1; pageNumber < pdoc.getPageCount(); i++){

    PDFTextStripper s = new PDFTextStripper();
    s.setStartPage(pageNumber);
    s.setEndPage(pageNumber);
    String pageText = reader.getText(pdoc);
    String contents = s.getText(pdoc);  
    if(contents.contains("SUBSCRIPTION DETAILS")){
    ...
    }
}
于 2013-10-24T08:24:33.873 回答