0

我使用 Poppler utils 中的 pdftohtml 将 PDF 转换为 XML。这给出了 PDF 中文本的坐标。我还使用 ImageMagick 的转换工具将 PDF 转换为图像。当我在图像中搜索相同的坐标时,我没有找到 XML 指向的文本:

第一个链接在 top=182 处显示标记为“BILL TO”的文本。第二个链接显示相同的文本“BILL TO”,但坐标不同。

我的问题是:如何从 XML 和图像格式中找到坐标之间的关系?

任何帮助,将不胜感激。

4

1 回答 1

0

使用带有选项 -xml 的 pdf2html 将为 PDF 中的每个页面生成一个包含一个元素的 xml 文件。该元素具有属性宽度和高度。元素内的所有元素都具有相对于它们的属性 left、top、width 和 height。

A4 为 297 毫米或 11.693 英寸。在 72 DPI(见这里),这是 842 点,这是 pdfinfo 将报告的。不幸的是,pdftohtml 的默认缩放比例为 1.5。因此,对于 A4 页面,高度变为 1263。因此,您需要先乘以 2/3,或者使用 -zoom 1 选项。

ImageMagick convert 会将 PDF 转换为具有这些相同坐标的图像。

于 2022-01-16T12:28:09.410 回答