我正在使用pdf2json 库来解析 pdf。
它以 json 格式返回解析的数据,我附上了一些示例数据。
需要注意的主要变量是
高度- PAGE_UNITS 中 pdf 的高度
宽度- PAGE_UNITS 中 pdf 的宽度
sw -(字体的空间宽度)在 pd2json 库的 README.md 中定义
索引 1 处的 TS - 以 pt 为单位的字体大小
w - 我的困惑发生在哪里。W 应该代表文本行的宽度。但是,我的文本行的宽度大于页面的宽度,这没有任何意义。
我需要得到文本的长度。我已经尝试过 (文本中的字符数 * sw)/pagewidth 来获取行相对于 pdf.Tp 测试的比率然后我在前端使用该比率在相同 pdf 的图像上绘制具体线路。
但这似乎并没有给我正确的线条长度。通常它太短了。
如果有人可以请帮助,将非常感激。我一直在通过 pd2json 问题寻找类似的东西,但是没有答案,而且图书馆似乎没有得到很好的支持。
"Pages": [
{
"Height": 49.5,
"HLines": [],
"VLines": [],
"Fills": [
{
"x": 0,
"y": 0,
"w": 0,
"h": 0,
"clr": 1
},
{
"x": 9.001,
"y": 19.271,
"w": 5.372,
"h": 0.038,
"clr": 35
}
],
"Texts": [
{
"x": 4.252,
"y": 45.981,
"w": 96.648,
"sw": 0.32553125,
"clr": 0,
"A": "left",
"R": [
{
"T": "Hello%20World%20",
"S": -1,
"TS": [
0,
15,
0,
0
]
}
]
},
"Width": 38.25
...