1

我正在使用pdf2json 库来解析 pdf。

它以 json 格式返回解析的数据,我附上了一些示例数据。

需要注意的主要变量是

高度- PAGE_UNITS 中 pdf 的高度

宽度- PAGE_UNITS 中 pdf 的宽度

sw -(字体的空间宽度)在 pd2json 库的 README.md 中定义

索引 1 处的 TS - 以 pt 为单位的字体大小

w - 我的困惑发生在哪里。W 应该代表文本行的宽度。但是,我的文本行的宽度大于页面的宽度,这没有任何意义。

我需要得到文本的长度。我已经尝试过 (文本中的字符数 * sw)/pagewidth 来获取行相对于 pdf.Tp 测试的比率然后我在前端使用该比率在相同 pdf 的图像上绘制具体线路。

但这似乎并没有给我正确的线条长度。通常它太短了。

如果有人可以请帮助,将非常感激。我一直在通过 pd2json 问题寻找类似的东西,但是没有答案,而且图书馆似乎没有得到很好的支持。

"Pages": [
  {
    "Height": 49.5,
    "HLines": [],
    "VLines": [],
    "Fills": [
      {
        "x": 0,
        "y": 0,
        "w": 0,
        "h": 0,
        "clr": 1
      },
      {
        "x": 9.001,
        "y": 19.271,
        "w": 5.372,
        "h": 0.038,
        "clr": 35
      }
    ],
    "Texts": [
      {
        "x": 4.252,
        "y": 45.981,
        "w": 96.648,
        "sw": 0.32553125,
        "clr": 0,
        "A": "left",
        "R": [
          {
            "T": "Hello%20World%20",
            "S": -1,
            "TS": [
              0,
              15,
              0,
              0
            ]
          }
        ]
      },
 "Width": 38.25
...
4

0 回答 0