问题标签 [pdfparser]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 通过 pdftotext 或 pdfparser 从 pdf 中提取印地语 / devnagri 文本时得到相同的垃圾
我正在使用 php Pdfparser 和 pdftotext 从 pdf 中提取印地语/devnagri 文本。但是我使用上述两种方法得到了同样的垃圾或垃圾。
垃圾,例如:
如果我在谷歌中粘贴这个垃圾,它会显示正确的印地语页面。可能是乱码是正确的,但它是不同的语言。
如果有人可以支持从 pdf 到文本中提取确切的可读文本。
php - 如何获取文本形式的副本受保护的 pdf 文件或具有不同的字体?
我正在使用 pdfparser 从 PDF 文件中复制文本,但某些 PDF 文件受到复制保护或具有不同的字体,因此 pdfparser 无法正常工作,是否可以从受复制保护的 PDF 中获取文本?
这是我的代码:
尝试此代码后,我没有收到任何错误或警告。此代码仅显示空格。我也尝试过 utf-8 编码,但它仍然无法正常工作?
php - 解析 PDF 并获取页眉部分信息
我正在尝试解析 PDF 的内容。基本上它们是科学研究论文。
这是我试图抓住的部分:
我只需要论文标题和作者姓名。
我使用的是PDF Parser Library。而且我能够使用以下代码获取标题部分文本:
我所做的是,解析第一页的全文,然后它将以纯格式返回整个文本。由于所需的内容在 word 之前ABSTRACT
,我尝试拆分文本,然后拆分行。
我假设前两行是标题,第三行是作者姓名。到目前为止,我在上面的屏幕截图中显示的论文给出了正确的结果。
但是在以下情况下会出现问题:
如果论文标题是单行,我事先并不知道。所以我的代码总是将前两行作为纸片返回。这可能会同时给出标题和作者姓名
paper_title
如果论文标题是三行,这同样会产生问题。
如果有超过 1 个作者,那么我的代码将不会返回正确的数据。
那么关于我如何有效地从 PDF 科学论文中获取论文标题和作者姓名等数据的任何建议?确信他们在使用 LateX 工具创建 PDF 时都遵循相同的模式。有更好的解决方案或线索吗?
请注意,我正在尝试在我网站上传的论文上执行此操作。我使用 PHP 作为服务器端语言。
谢谢
php - 无法在php中提取pdf文件的内容
目前正在验证pdf文件。我在 Laravel 中使用 PHP pdfparser 来提取文件。但有些文件无法提取。我想出了降级pdf文件以解决问题的解决方案,但仍然不适合我。
我试图将 pdf 文件从 1.7 版降级到 1.4 版,但它不允许我这样做。
我需要阅读 pdf 文件的内容并确定它是否存在漏洞。
php - 致命错误:未捕获的错误:在 /var/www/html 中找不到类 'Smalot\PdfParser\Parser'
我用 Composer 安装了 PdfParser,它在我打开页面 cron.php 时工作。pdf被解析。
这是我在 cron.php 中的代码:
我在 ubuntu 16 服务器中设置了一个 cron 以使用以下代码启动页面 cron.php:
该页面有效,但日志告诉我:
这是我的 autoload.php
这是我的“路径/文件”,其中日志说这是缺少的类 public_html/post/vendor/smalot/pdfparser/src/Smalot/PdfParser/Parser.php
当我手动启动 cron.php 但不在 crontab 中时,它会解析 pdf 我被卡住了 4 天,我不知道问题出在哪里。请我需要你的建议。谢谢埃米尔。
php - 在我的 PHP 代码中从上传的 PDF 元数据文件中获取页面大小
这里我使用了一个 PDF 解析器 PHP 库:
但它只给了我这个结果:
虽然我试图从https://www.pdfyeah.com/view-pdf-metadata/获取元数据,但它给了我这个结果:
这就是我想要的元数据。如何使用 PHP 从元数据中找到它?
javascript - 一次阅读一页pdf - Pdf.js
我正在尝试解析超过 300 页的 pdf。我正在使用pdf-parse npm package。pdf 有 300 页。但是我的应用程序在解析 pdf 时崩溃了。我的问题是我可以一次解析一页吗?下面是我尝试过的代码。
javascript - 如何对 pdf2json(pdfParser) 中的事件使用异步等待
我正在使用https://www.npmjs.com/package/pdf2json npm 包,它将从给定路径中选择 pdf,当 pdf 解析器准备好解析它时,它会触发一个事件pdfParser_dataReady
。我想将它与异步等待一起使用。
在上面的代码里面pdfParser_dataReady
我调用了一个initPdfParser
返回一些数据的方法。并且defineParser
函数以异步方式从其他函数调用。
我的问题是如何在上述情况下使用异步等待,以便该defineParser
函数将等到pdfParser_dataReady
事件被触发并从initPdfParser
函数返回数据,以便uploadEmailDoc
获取最终数据并返回它。我尝试了几种方法,但找不到从事件回调中获取响应的方法。
任何帮助将非常感激。
php - pdfparser 说:“目前不支持受保护的 pdf 文件。”
我正在使用 pdfparser 从 PHP 上的 pdf 中解析和读取文本。它适用于某些 pdf 文件。但是,对于某些文件,它会抛出一条错误消息:“当前不支持受保护的 pdf 文件。”。当我尝试使用 Adobe 之类的 pdf 阅读器打开 pdfparser 认为安全的文件时,我可以毫无问题地打开它们。
我尝试了几种方法,例如使用 file_get_contents 和 file_put_contents 再次保存文件以检查它们是否可以工作,但无济于事。是否有任何解决方案来解析和读取这些文件中的文本?非常感谢任何解决方案。