1

这是“iText in action”中使用 Rectangle 选择文档的一部分以从 pdf 文件中提取文本的示例:

PdfReader reader = new PdfReader(pdf);
PrintWriter out = new PrintWriter(new FileOutputStream(txt));
Rectangle rect = new Rectangle(70, 80, 420, 500);
RenderFilter filter = new RegionTextRenderFilter(rect);
TextExtractionStrategy strategy;
for (int i = 1; i <= reader.getNumberOfPages(); i++) {
    strategy = new FilteredTextRenderListener(
     new LocationTextExtractionStrategy(), filter);
     out.println(PdfTextExtractor.getTextFromPage(reader, i, strategy));
}
out.flush();
out.close();

我不明白的是这些数字的含义(70、80、420、500)。通常, (70, 80) 是坐标,420 是宽度,500 是矩形的高度,但我不确定比例、如何测量以及它开始的确切点。谁能为我解释一下或展示一些示例图片?

4

1 回答 1

1

在这种情况下,您有两个坐标:x = 70,y = 80 是左下角坐标;x = 420, y = 500 是右上角的坐标。PDF 中使用的单位是“用户单位”。默认情况下,1 个用户单位等于 1 分,但可以使用/UserUnit键更改默认值。正如 mkl 在他的评论中指出的那样,MediaBox 定义了页面大小。但是,您也可以拥有一个定义页面可见区域的 CropBox(如果存在,CropBox 应该始终小于 MediaBox)。

于 2013-10-12T16:12:42.053 回答