我有一个源 pdf(untagged.pdf),我将从中创建一个标记版本(tagged.pdf)
我有源pdf所有内容的所有html标签的信息。
现在我在第 3 页上有一个图。当我以编程方式解析时,它不会被检测为图像,但这是一个带有一些文本的矩形和另一个如下所示的矩形。
_____________________ ____________________
| Some text inside | ----> | Some other text |
| | ----> | Inside |
|_____________________| ----> |____________________|
Fig 1.x Rectangle 1 to Rectangle 2
使用其他一些技术,我检测到这是一个图形和相同的边界坐标。假设边界坐标是 [10, 30] 和 [100, 60],我想将整个事物标记为图形(如下所示)
_____________________________________________________________(100, 60)
| |
| _____________________ ____________________ |
| | Some text inside | ----> | Some other text | |
| | | ----> | Inside | |
| |_____________________| ----> |____________________| |
| |
| Fig 1.x Rectangle 1 to Rectangle 2 |
|_____________________________________________________________|
(10, 30)
现在我想将整个部分标记为图像。我检查了 itextpdf 或 pdfbox 之类的库。他们没有使用坐标标记图形的 API。
换句话说,有没有办法以编程方式将元素(一组图像)标记为图形。