问题标签 [pdf2json]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
21 浏览

javascript - 如何对 pdf2json(pdfParser) 中的事件使用异步等待

我正在使用https://www.npmjs.com/package/pdf2json npm 包,它将从给定路径中选择 pdf,当 pdf 解析器准备好解析它时,它会触发一个事件pdfParser_dataReady。我想将它与异步等待一起使用。

在上面的代码里面pdfParser_dataReady我调用了一个initPdfParser返回一些数据的方法。并且defineParser函数以异步方式从其他函数调用。

我的问题是如何在上述情况下使用异步等待,以便该defineParser函数将等到pdfParser_dataReady事件被触发并从initPdfParser函数返回数据,以便uploadEmailDoc获取最终数据并返回它。我尝试了几种方法,但找不到从事件回调中获取响应的方法。

任何帮助将非常感激。

0 投票
1 回答
144 浏览

javascript - 使用 pdf2json 在 azure 函数中读取 pdf

我成功实现了 pdf2json 以使用 node 从 url 获取和读取 pdf。

但是,Azure 函数是一个异步函数,并在执行 pdfPipe.on("pdfParser_dataReady", pdf => {}) 之前完成执行。

我的实现如下

这在我机器上的节点中运行良好。但我需要将 pdfPipe.on('---', function(){}) 转换为 async 并等待,因为 azure 函数不会等待 pdfPipe 完成。

怎么做?

0 投票
1 回答
555 浏览

pdf2json - 如何在nodejs中解析PDF

我正在尝试解析pdf并根据文本格式/装饰对信息进行分类。你建议我怎么做?例如,我有一个重复结构的pdf: S.No. BOLD+UNDERLINED TITLE para

如何根据文本修饰将此数据分类为对象数组:

0 投票
1 回答
131 浏览

javascript - How to integrate tabula-js in an angular 9 app?Is there any other way to select specific parts from the rendered pdf and extract the data in json?

I tried installing the tabula-js library but since it's a js lib I don't know how to integrate it in angular which works on ts.

Also if not this, then is there any way to select specific parts from a rendered pdf document by coordinates and then use it to extract the data. I basically need to make a pdf to json extraction webapp.

0 投票
2 回答
1276 浏览

node.js - 如何在 Node.js 中以像素为单位获取 PDF 尺寸?

我试过pdf2json:

但它给出了未知单位的尺寸!

以像素为单位的尺寸将帮助我将它们包含在将 pdf 文件转换为图像的 pdf-poppler 模块中,并且它需要以像素为单位的 pdf 文件高度。

0 投票
2 回答
56 浏览

javascript - 如何在节点上同步处理从前端 API 接收的文件

首先,我为我糟糕的英语道歉:D

您好,我有以下情况让我很感兴趣,我有一个在 react 中制作的前端和一个在 node 中通过 express 接收请求的后端。这个想法是,我从前端使用 POST 方法发送一个 pdf 文件,后端处理这个文件,进行必要的处理(将页面分成更多文件并在 pdf 中获取数据),最后它返回这些处理过的 pdf . 我想在 POST 响应中返回这些新文件,但我遇到了异步问题。处理文件时,我使用 pfd2Json 库,这个库显然异步处理您选择的 pdf 并让执行流程继续,我的问题是当我发送库来处理我的 pdf 时,它把它放在“后台” “处决仍在继续,

当一个 post 请求到达时,程序执行这个函数“ getPDF()

当它执行getInformationsPdf()时,程序执行所有内容,但不等待库处理 pdf。在这种情况下,我将每个单独的文件加载到一个 forEach 中,使用pdfParser.loadPDF(fileLocation); 上传我的pdf,他正在等待pdfParser.on(“pdfParser_dataReady”,pdfData => {})读取所有内容只是因为这个方法是异步的,它只是调用它并将其置于后台,使流程一直持续到块的末尾并转到下一个 forEach 项目,而 pdf 甚至还没有被处理。最后,所有的 forEach 都已经执行并且 pdf 还没有被处理,程序发送响应并且来自 pdf 的数据在后端。有没有办法让我在发送回复之前强制等待治疗?

0 投票
0 回答
48 浏览

javascript - 使用字体大小计算文本长度(npm - pdf2json 库)

我正在使用pdf2json 库来解析 pdf。

它以 json 格式返回解析的数据,我附上了一些示例数据。

需要注意的主要变量是

高度- PAGE_UNITS 中 pdf 的高度

宽度- PAGE_UNITS 中 pdf 的宽度

sw -(字体的空间宽度)在 pd2json 库的 README.md 中定义

索引 1 处的 TS - 以 pt 为单位的字体大小

w - 我的困惑发生在哪里。W 应该代表文本行的宽度。但是,我的文本行的宽度大于页面的宽度,这没有任何意义。

我需要得到文本的长度。我已经尝试过 (文本中的字符数 * sw)/pagewidth 来获取行相对于 pdf.Tp 测试的比率然后我在前端使用该比率在相同 pdf 的图像上绘制具体线路。

但这似乎并没有给我正确的线条长度。通常它太短了。

如果有人可以请帮助,将非常感激。我一直在通过 pd2json 问题寻找类似的东西,但是没有答案,而且图书馆似乎没有得到很好的支持。

0 投票
0 回答
108 浏览

node.js - nodejs pdf解析在特定字符串后获取值

我的目标是在预定义文本之后获取某个字符串。在这种情况下,我想阅读以下值: 所需值

我发现这可以使用正则表达式,因此我尝试了这个:

我收到我的数组位于位置 1 null 的错误:

无法读取 null 的属性“1”

谢谢

0 投票
0 回答
64 浏览

node.js - 当我们将 pdf 内容保存到 db 时,pdf2json 在 node.js 中显示错误

我们需要在 DB 中保存 pdf 内容,为此我们在 node.js 中使用https://www.npmjs.com/package/pdf2json模块,但我们无法运行得到错误这是我的示例代码

在此处输入代码

);

});

收到错误:

loadMetaData 错误:TypeError:无法读取 null 的属性“元数据” loadMetaData 错误:TypeError:无法读取 null 的属性“元数据”

请帮助我谢谢