问题标签 [pdf2json]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - 如何对 pdf2json(pdfParser) 中的事件使用异步等待
我正在使用https://www.npmjs.com/package/pdf2json npm 包,它将从给定路径中选择 pdf,当 pdf 解析器准备好解析它时,它会触发一个事件pdfParser_dataReady
。我想将它与异步等待一起使用。
在上面的代码里面pdfParser_dataReady
我调用了一个initPdfParser
返回一些数据的方法。并且defineParser
函数以异步方式从其他函数调用。
我的问题是如何在上述情况下使用异步等待,以便该defineParser
函数将等到pdfParser_dataReady
事件被触发并从initPdfParser
函数返回数据,以便uploadEmailDoc
获取最终数据并返回它。我尝试了几种方法,但找不到从事件回调中获取响应的方法。
任何帮助将非常感激。
javascript - 使用 pdf2json 在 azure 函数中读取 pdf
我成功实现了 pdf2json 以使用 node 从 url 获取和读取 pdf。
但是,Azure 函数是一个异步函数,并在执行 pdfPipe.on("pdfParser_dataReady", pdf => {}) 之前完成执行。
我的实现如下
这在我机器上的节点中运行良好。但我需要将 pdfPipe.on('---', function(){}) 转换为 async 并等待,因为 azure 函数不会等待 pdfPipe 完成。
怎么做?
pdf2json - 如何在nodejs中解析PDF
我正在尝试解析pdf并根据文本格式/装饰对信息进行分类。你建议我怎么做?例如,我有一个重复结构的pdf:
S.No. BOLD+UNDERLINED TITLE para
如何根据文本修饰将此数据分类为对象数组:
javascript - How to integrate tabula-js in an angular 9 app?Is there any other way to select specific parts from the rendered pdf and extract the data in json?
I tried installing the tabula-js library but since it's a js lib I don't know how to integrate it in angular which works on ts.
Also if not this, then is there any way to select specific parts from a rendered pdf document by coordinates and then use it to extract the data. I basically need to make a pdf to json extraction webapp.
node.js - 如何在 Node.js 中以像素为单位获取 PDF 尺寸?
我试过pdf2json:
但它给出了未知单位的尺寸!
以像素为单位的尺寸将帮助我将它们包含在将 pdf 文件转换为图像的 pdf-poppler 模块中,并且它需要以像素为单位的 pdf 文件高度。
javascript - 如何在节点上同步处理从前端 API 接收的文件
首先,我为我糟糕的英语道歉:D
您好,我有以下情况让我很感兴趣,我有一个在 react 中制作的前端和一个在 node 中通过 express 接收请求的后端。这个想法是,我从前端使用 POST 方法发送一个 pdf 文件,后端处理这个文件,进行必要的处理(将页面分成更多文件并在 pdf 中获取数据),最后它返回这些处理过的 pdf . 我想在 POST 响应中返回这些新文件,但我遇到了异步问题。处理文件时,我使用 pfd2Json 库,这个库显然异步处理您选择的 pdf 并让执行流程继续,我的问题是当我发送库来处理我的 pdf 时,它把它放在“后台” “处决仍在继续,
当一个 post 请求到达时,程序执行这个函数“ getPDF() ”
当它执行getInformationsPdf()时,程序执行所有内容,但不等待库处理 pdf。在这种情况下,我将每个单独的文件加载到一个 forEach 中,使用pdfParser.loadPDF(fileLocation); 上传我的pdf,他正在等待pdfParser.on(“pdfParser_dataReady”,pdfData => {})读取所有内容只是因为这个方法是异步的,它只是调用它并将其置于后台,使流程一直持续到块的末尾并转到下一个 forEach 项目,而 pdf 甚至还没有被处理。最后,所有的 forEach 都已经执行并且 pdf 还没有被处理,程序发送响应并且来自 pdf 的数据在后端。有没有办法让我在发送回复之前强制等待治疗?
javascript - 使用字体大小计算文本长度(npm - pdf2json 库)
我正在使用pdf2json 库来解析 pdf。
它以 json 格式返回解析的数据,我附上了一些示例数据。
需要注意的主要变量是
高度- PAGE_UNITS 中 pdf 的高度
宽度- PAGE_UNITS 中 pdf 的宽度
sw -(字体的空间宽度)在 pd2json 库的 README.md 中定义
索引 1 处的 TS - 以 pt 为单位的字体大小
w - 我的困惑发生在哪里。W 应该代表文本行的宽度。但是,我的文本行的宽度大于页面的宽度,这没有任何意义。
我需要得到文本的长度。我已经尝试过 (文本中的字符数 * sw)/pagewidth 来获取行相对于 pdf.Tp 测试的比率然后我在前端使用该比率在相同 pdf 的图像上绘制具体线路。
但这似乎并没有给我正确的线条长度。通常它太短了。
如果有人可以请帮助,将非常感激。我一直在通过 pd2json 问题寻找类似的东西,但是没有答案,而且图书馆似乎没有得到很好的支持。
node.js - 当我们将 pdf 内容保存到 db 时,pdf2json 在 node.js 中显示错误
我们需要在 DB 中保存 pdf 内容,为此我们在 node.js 中使用https://www.npmjs.com/package/pdf2json模块,但我们无法运行得到错误这是我的示例代码
在此处输入代码
);
});
收到错误:
loadMetaData 错误:TypeError:无法读取 null 的属性“元数据” loadMetaData 错误:TypeError:无法读取 null 的属性“元数据”
请帮助我谢谢