“pdfparser”的相关标签问题

0 投票

0 回答

62 浏览

php - 通过 pdftotext 或 pdfparser 从 pdf 中提取印地语 / devnagri 文本时得到相同的垃圾

我正在使用 php Pdfparser 和 pdftotext 从 pdf 中提取印地语/devnagri 文本。但是我使用上述两种方法得到了同样的垃圾或垃圾。

垃圾，例如：

如果我在谷歌中粘贴这个垃圾，它会显示正确的印地语页面。可能是乱码是正确的，但它是不同的语言。

如果有人可以支持从 pdf 到文本中提取确切的可读文本。

2019-04-18T05:47:21.070

0 投票

3 回答

4310 浏览

c# - 在 C# 中根据 PDF 中的标签名称读取特定值

我有一个asp.net Core 2.0 C#应用程序可以读取/解析 PDF 文件并获取文本。在此我想读取具有特定标签名称的特定值。您可以看到下图我想获取数字的值171857并将其Invoice存储在数据库中。

我尝试使用下面的代码来阅读 pdf iTextSharp。

在pdfText变量中，我将从 pdf 中获取所有文本内容，但这似乎不是获取发票编号的正确方法。有没有其他方法可以通过它的标签名称从 pdf 中读取特定内容，就像我们将提供标签名称一样Invoice，它将返回值171857作为其他 3rd 方 pdf 阅读器库的示例？

任何帮助或建议将不胜感激。

谢谢

c#pdf itext pdfparser

2019-05-16T07:08:23.303

0 投票

1 回答

400 浏览

php - 如何获取文本形式的副本受保护的 pdf 文件或具有不同的字体？

我正在使用 pdfparser 从 PDF 文件中复制文本，但某些 PDF 文件受到复制保护或具有不同的字体，因此 pdfparser 无法正常工作，是否可以从受复制保护的 PDF 中获取文本？

这是我的代码：

尝试此代码后，我没有收到任何错误或警告。此代码仅显示空格。我也尝试过 utf-8 编码，但它仍然无法正常工作？

php pdf libraries pdfparser

2019-05-19T10:43:51.393

0 投票

1 回答

1332 浏览

php - 解析 PDF 并获取页眉部分信息

我正在尝试解析 PDF 的内容。基本上它们是科学研究论文。

这是我试图抓住的部分：

我只需要论文标题和作者姓名。

我使用的是PDF Parser Library。而且我能够使用以下代码获取标题部分文本：

我所做的是，解析第一页的全文，然后它将以纯格式返回整个文本。由于所需的内容在 word 之前ABSTRACT，我尝试拆分文本，然后拆分行。

我假设前两行是标题，第三行是作者姓名。到目前为止，我在上面的屏幕截图中显示的论文给出了正确的结果。

但是在以下情况下会出现问题：

如果论文标题是单行，我事先并不知道。所以我的代码总是将前两行作为纸片返回。这可能会同时给出标题和作者姓名paper_title
如果论文标题是三行，这同样会产生问题。
如果有超过 1 个作者，那么我的代码将不会返回正确的数据。

那么关于我如何有效地从 PDF 科学论文中获取论文标题和作者姓名等数据的任何建议？确信他们在使用 LateX 工具创建 PDF 时都遵循相同的模式。有更好的解决方案或线索吗？

请注意，我正在尝试在我网站上传的论文上执行此操作。我使用 PHP 作为服务器端语言。

谢谢

php parsing pdf pdfparser

2019-07-11T11:13:20.483

0 投票

0 回答

509 浏览

php - 无法在php中提取pdf文件的内容

目前正在验证pdf文件。我在 Laravel 中使用 PHP pdfparser 来提取文件。但有些文件无法提取。我想出了降级pdf文件以解决问题的解决方案，但仍然不适合我。

我试图将 pdf 文件从 1.7 版降级到 1.4 版，但它不允许我这样做。

我需要阅读 pdf 文件的内容并确定它是否存在漏洞。

php pdfparser

2019-08-13T06:38:49.300

0 投票

1 回答

1916 浏览

php - 致命错误：未捕获的错误：在 /var/www/html 中找不到类 'Smalot\PdfParser\Parser'

我用 Composer 安装了 PdfParser，它在我打开页面 cron.php 时工作。pdf被解析。

这是我在 cron.php 中的代码：

我在 ubuntu 16 服务器中设置了一个 cron 以使用以下代码启动页面 cron.php：

该页面有效，但日志告诉我：

这是我的 autoload.php

这是我的“路径/文件”，其中日志说这是缺少的类 public_html/post/vendor/smalot/pdfparser/src/Smalot/PdfParser/Parser.php

当我手动启动 cron.php 但不在 crontab 中时，它会解析 pdf 我被卡住了 4 天，我不知道问题出在哪里。请我需要你的建议。谢谢埃米尔。

php cron pdfparser

2020-01-03T02:41:51.670

0 投票

0 回答

226 浏览

php - 在我的 PHP 代码中从上传的 PDF 元数据文件中获取页面大小

这里我使用了一个 PDF 解析器 PHP 库：

但它只给了我这个结果：

虽然我试图从https://www.pdfyeah.com/view-pdf-metadata/获取元数据，但它给了我这个结果：

这就是我想要的元数据。如何使用 PHP 从元数据中找到它？

php pdf metadata pdfparser

2020-01-14T13:50:59.140

0 投票

0 回答

159 浏览

javascript - 一次阅读一页pdf - Pdf.js

我正在尝试解析超过 300 页的 pdf。我正在使用pdf-parse npm package。pdf 有 300 页。但是我的应用程序在解析 pdf 时崩溃了。我的问题是我可以一次解析一页吗？下面是我尝试过的代码。

javascript pdfjs pdfparser

user10090131

2020-01-18T10:37:30.743

0 投票

0 回答

21 浏览

javascript - 如何对 pdf2json(pdfParser) 中的事件使用异步等待

我正在使用https://www.npmjs.com/package/pdf2json npm 包，它将从给定路径中选择 pdf，当 pdf 解析器准备好解析它时，它会触发一个事件pdfParser_dataReady。我想将它与异步等待一起使用。

在上面的代码里面pdfParser_dataReady我调用了一个initPdfParser返回一些数据的方法。并且defineParser函数以异步方式从其他函数调用。

我的问题是如何在上述情况下使用异步等待，以便该defineParser函数将等到pdfParser_dataReady事件被触发并从initPdfParser函数返回数据，以便uploadEmailDoc获取最终数据并返回它。我尝试了几种方法，但找不到从事件回调中获取响应的方法。

任何帮助将非常感激。

javascript async-await pdfparser pdf2json

2020-04-14T16:17:18.933

0 投票

1 回答

936 浏览

php - pdfparser 说：“目前不支持受保护的 pdf 文件。”

我正在使用 pdfparser 从 PHP 上的 pdf 中解析和读取文本。它适用于某些 pdf 文件。但是，对于某些文件，它会抛出一条错误消息：“当前不支持受保护的 pdf 文件。”。当我尝试使用 Adobe 之类的 pdf 阅读器打开 pdfparser 认为安全的文件时，我可以毫无问题地打开它们。

我尝试了几种方法，例如使用 file_get_contents 和 file_put_contents 再次保存文件以检查它们是否可以工作，但无济于事。是否有任何解决方案来解析和读取这些文件中的文本？非常感谢任何解决方案。

php parsing pdf error-handling pdfparser

2020-06-08T06:39:10.410

问题标签 [pdfparser]

Reference