问题标签 [pdfparser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
62 浏览

php - 通过 pdftotext 或 pdfparser 从 pdf 中提取印地语 / devnagri 文本时得到相同的垃圾

我正在使用 php Pdfparser 和 pdftotext 从 pdf 中提取印地语/devnagri 文本。但是我使用上述两种方法得到了同样的垃圾或垃圾。

垃圾,例如:

如果我在谷歌中粘贴这个垃圾,它会显示正确的印地语页面。可能是乱码是正确的,但它是不同的语言。

如果有人可以支持从 pdf 到文本中提取确切的可读文本。

0 投票
3 回答
4310 浏览

c# - 在 C# 中根据 PDF 中的标签名称读取特定值

我有一个asp.net Core 2.0 C#应用程序可以读取/解析 PDF 文件并获取文本。在此我想读取具有特定标签名称的特定值。您可以看到下图我想获取数字的值171857并将其Invoice存储在数据库中。 在此处输入图像描述

我尝试使用下面的代码来阅读 pdf iTextSharp

pdfText变量中,我将从 pdf 中获取所有文本内容,但这似乎不是获取发票编号的正确方法。有没有其他方法可以通过它的标签名称从 pdf 中读取特定内容,就像我们将提供标签名称一样Invoice,它将返回值171857作为其他 3rd 方 pdf 阅读器库的示例?

任何帮助或建议将不胜感激。

谢谢

0 投票
1 回答
400 浏览

php - 如何获取文本形式的副本受保护的 pdf 文件或具有不同的字体?

我正在使用 pdfparser 从 PDF 文件中复制文本,但某些 PDF 文件受到复制保护或具有不同的字体,因此 pdfparser 无法正常工作,是否可以从受复制保护的 PDF 中获取文本?

这是我的代码:

尝试此代码后,我没有收到任何错误或警告。此代码仅显示空格。我也尝试过 utf-8 编码,但它仍然无法正常工作?

0 投票
1 回答
1332 浏览

php - 解析 PDF 并获取页眉部分信息

我正在尝试解析 PDF 的内容。基本上它们是科学研究论文。

这是我试图抓住的部分:

在此处输入图像描述

我只需要论文标题和作者姓名。

我使用的是PDF Parser Library。而且我能够使用以下代码获取标题部分文本:

我所做的是,解析第一页的全文,然后它将以纯格式返回整个文本。由于所需的内容在 word 之前ABSTRACT,我尝试拆分文本,然后拆分行。

我假设前两行是标题,第三行是作者姓名。到目前为止,我在上面的屏幕截图中显示的论文给出了正确的结果。

但是在以下情况下会出现问题:

  1. 如果论文标题是单行,我事先并不知道。所以我的代码总是将前两行作为纸片返回。这可能会同时给出标题和作者姓名paper_title

  2. 如果论文标题是三行,这同样会产生问题。

  3. 如果有超过 1 个作者,那么我的代码将不会返回正确的数据。

那么关于我如何有效地从 PDF 科学论文中获取论文标题和作者姓名等数据的任何建议?确信他们在使用 LateX 工具创建 PDF 时都遵循相同的模式。有更好的解决方案或线索吗?

请注意,我正在尝试在我网站上传的论文上执行此操作。我使用 PHP 作为服务器端语言。

谢谢

0 投票
0 回答
509 浏览

php - 无法在php中提取pdf文件的内容

目前正在验证pdf文件。我在 Laravel 中使用 PHP pdfparser 来提取文件。但有些文件无法提取。我想出了降级pdf文件以解决问题的解决方案,但仍然不适合我。

我试图将 pdf 文件从 1.7 版降级到 1.4 版,但它不允许我这样做。

我需要阅读 pdf 文件的内容并确定它是否存在漏洞。

0 投票
1 回答
1916 浏览

php - 致命错误:未捕获的错误:在 /var/www/html 中找不到类 'Smalot\PdfParser\Parser'

我用 Composer 安装了 PdfParser,它在我打开页面 cron.php 时工作。pdf被解析。

这是我在 cron.php 中的代码:

我在 ubuntu 16 服务器中设置了一个 cron 以使用以下代码启动页面 cron.php:

该页面有效,但日志告诉我:

这是我的 autoload.php

这是我的“路径/文件”,其中日志说这是缺少的类 public_html/post/vendor/smalot/pdfparser/src/Smalot/PdfParser/Parser.php

当我手动启动 cron.php 但不在 crontab 中时,它会解析 pdf 我被卡住了 4 天,我不知道问题出在哪里。请我需要你的建议。谢谢埃米尔。

0 投票
0 回答
226 浏览

php - 在我的 PHP 代码中从上传的 PDF 元数据文件中获取页面大小

这里我使用了一个 PDF 解析器 PHP 库:

但它只给了我这个结果:

虽然我试图从https://www.pdfyeah.com/view-pdf-metadata/获取元数据,但它给了我这个结果:

这就是我想要的元数据。如何使用 PHP 从元数据中找到它?

0 投票
0 回答
159 浏览

javascript - 一次阅读一页pdf - Pdf.js

我正在尝试解析超过 300 页的 pdf。我正在使用pdf-parse npm package。pdf 有 300 页。但是我的应用程序在解析 pdf 时崩溃了。我的问题是我可以一次解析一页吗?下面是我尝试过的代码。

0 投票
0 回答
21 浏览

javascript - 如何对 pdf2json(pdfParser) 中的事件使用异步等待

我正在使用https://www.npmjs.com/package/pdf2json npm 包,它将从给定路径中选择 pdf,当 pdf 解析器准备好解析它时,它会触发一个事件pdfParser_dataReady。我想将它与异步等待一起使用。

在上面的代码里面pdfParser_dataReady我调用了一个initPdfParser返回一些数据的方法。并且defineParser函数以异步方式从其他函数调用。

我的问题是如何在上述情况下使用异步等待,以便该defineParser函数将等到pdfParser_dataReady事件被触发并从initPdfParser函数返回数据,以便uploadEmailDoc获取最终数据并返回它。我尝试了几种方法,但找不到从事件回调中获取响应的方法。

任何帮助将非常感激。

0 投票
1 回答
936 浏览

php - pdfparser 说:“目前不支持受保护的 pdf 文件。”

我正在使用 pdfparser 从 PHP 上的 pdf 中解析和读取文本。它适用于某些 pdf 文件。但是,对于某些文件,它会抛出一条错误消息:“当前不支持受保护的 pdf 文件。”。当我尝试使用 Adob​​e 之类的 pdf 阅读器打开 pdfparser 认为安全的文件时,我可以毫无问题地打开它们。

我尝试了几种方法,例如使用 file_get_contents 和 file_put_contents 再次保存文件以检查它们是否可以工作,但无济于事。是否有任何解决方案来解析和读取这些文件中的文本?非常感谢任何解决方案。