1

我有一个源 pdf(untagged.pdf),我将从中创建一个标记版本(tagged.pdf)

我有源pdf所有内容的所有html标签的信息。

现在我在第 3 页上有一个图。当我以编程方式解析时,它不会被检测为图像,但这是一个带有一些文本的矩形和另一个如下所示的矩形。

    _____________________         ____________________
   |    Some text inside | ----> |   Some other text  |
   |                     | ----> |            Inside  |
   |_____________________| ----> |____________________|

             Fig 1.x Rectangle 1 to Rectangle 2

使用其他一些技术,我检测到这是一个图形和相同的边界坐标。假设边界坐标是 [10, 30] 和 [100, 60],我想将整个事物标记为图形(如下所示)

   _____________________________________________________________(100, 60)
  |                                                             |
  |      _____________________         ____________________     |
  |     |    Some text inside | ----> |   Some other text  |    |
  |     |                     | ----> |            Inside  |    |
  |     |_____________________| ----> |____________________|    |
  |                                                             |
  |           Fig 1.x Rectangle 1 to Rectangle 2                |
  |_____________________________________________________________|
  (10, 30)

现在我想将整个部分标记为图像。我检查了 itextpdf 或 pdfbox 之类的库。他们没有使用坐标标记图形的 API。

换句话说,有没有办法以编程方式将元素(一组图像)标记为图形。

4

0 回答 0