1

首先,对不起我的英语不好。

我正在尝试删除 PDF 页面的页眉和页脚,有必要在分页符处搜索一些单词,但页眉和页脚不可能,所以有必要裁剪它然后转换为文本而不是“可能”搜索单词。

我正在这样做:

PDDocument pdDoc = PDDocument.load("document.pdf");

PDPage page = (PDPage) pdDoc.getDocumentCatalog().getAllPages().get(0);

PDRectangle rectangle = new PDRectangle();
rectangle.setUpperRightY(page.findCropBox().getUpperRightY() - 100);
rectangle.setLowerLeftY(page.findCropBox().getLowerLeftY());
rectangle.setUpperRightX(page.findCropBox().getUpperRightY());
rectangle.setLowerLeftX(page.findCropBox().getLowerLeftX());

page.setMediaBox(rectangle);

PDDocument document = new PDDocument();
document.addPage(page);
document.save("newDocument.pdf");
document.close();

但是当我将其更改为 HTML 时,它会窃取隐藏的文本。有没有办法在没有裁剪区域的情况下保存它并正确转换为 html?

谢谢。此致。

4

0 回答 0