问题标签 [pdfparser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
943 浏览

php - 抛出异常后继续执行脚本 PHP

我正在使用PDFParser并遇到一个抛出的异常,即使我把它放在try/catch下面的块中,也会破坏我的脚本。意思是,异常被echo编辑,但"Caught exception: "部分没有。我以为这正是try/catch为了什么?

github问题评论没有解决这个问题,所以我认为SO可以提供帮助。

0 投票
0 回答
321 浏览

php - FPDF FPDI Parser 问题中的非法字符串偏移“/Root”

我有一个用户的多个 pdf 文件。因此,我为我们的用户提供了一个选项,可以在一个 PDF 文件中查看他的所有文档。

为此,我使用 FPDI pdf 解析器将所有 pdf 文件合并到一个文件中,然后显示给用户。但我得到以下错误:

下面给出了引发此错误的函数:

谁能告诉我这是什么问题。我已经尝试了很多,也搜索了很多东西,但都失败了。

提前致谢。

0 投票
0 回答
1473 浏览

php - TCPDF_PARSER 错误:无效的对象引用:数组

我正在使用库PDFparser ( https://github.com/smalot/pdfparser ) 将 PDF 文件转换为文本。

当我尝试在本地 Web 服务器上转换文件时,它解析正常。当我尝试在远程 Web 服务器上转换文件时,它失败并出现以下错误:TCPDF_PARSER ERROR: Invalid object reference: Array.

尽管存在类似的问题(两年都没有解决),但我在库的错误跟踪器中找不到合适的解决方案。

我怎样才能避免这个错误?或者我应该使用另一个库将 pdf 转换为文本(哪个)?

如文档中所述,我直接使用它:

0 投票
0 回答
55 浏览

javascript - 从express js中的PDF文件中获取空的组合框值

我正在使用 express.js 中的“pdf2json”解析器从 PDF 文件中获取空的组合框值。PDF 文件上的值在组合框中显示了不同的选项,并且它还在保存文件时存储了选择的状态,但是当我尝试解析文件时,它会解析除组合框值之外的所有字段。

单击以查看示例 PDF 图像

以下代码段用于从 PDF 中获取数据:-

我得到了所有字段的 JSON 数据的响应,但没有组合框值。

0 投票
1 回答
1992 浏览

java - 如何使用 Selenium webdriver 和 Java 读取 PDF

我正在尝试使用 Java-Selenium 读取 PDF 文件的内容。下面是我的代码。getWebDriver 是框架中的自定义方法。它返回网络驱动程序。

如果我不将其解析为RandomAccessRead类型,则代码的第二行会给出编译时错误。

编译错误

当我解析它时,我得到这个运行时错误:

java.lang.ClassCastException:java.io.BufferedInputStream 无法转换为 org.apache.pdfbox.io.RandomAccessRead

运行时错误

我需要帮助摆脱这些错误。

0 投票
0 回答
207 浏览

php - 使用 php 和 pdf 解析器库在大文件夹中搜索 pdf 文件内容

我正在使用 pdf 解析器在包含大量 pdf 文件的文件夹中搜索,以便在 pdf 文件内容中进行搜索。该代码仅适用于最多 3 个小尺寸文件:

该代码最多可处理三个文件,否则我会收到消息“无法访问此站点”。我在本地工作,我正在使用 wamp 服务器 - 我正在使用 pdf 解析器库:https ://pdfparser.org 请帮助

0 投票
1 回答
1263 浏览

php - Codeigniter 中的 PdfParser

我正在尝试在 Codeigniter 中使用 PdfParser 库(PDFparser 链接),所以首先我已经下载、解压缩并安装了 third_party/vendor 文件夹下的库,另外我已经下载、解压缩并安装了 tcpdf 库在同一个 third_party /供应商文件夹。由于我无法在远程服务器上运行 Composer,因此我在 thir_party/vendor 文件夹中创建了一个 autoload.php 文件。文件夹结构现在如下:

自动加载文件中用于加载所有依赖项的代码如下:

我在 Codeigniter 库文件夹中创建了一个新文件,该文件名为 Pdfparser.php,其内容如下:

在控制器中,我手动加载 libray 文件:

问题是当我尝试用

我收到以下错误:

有什么建议可以解决这个问题吗?非常感谢

0 投票
0 回答
225 浏览

pdfbox - 如何在硒中解析pdf

我一直在尝试阅读在浏览器中打开的 pdf。通过以下硒代码。

得到错误:

java.io.IOException:错误:文件结束,预期行enter code here

如何摆脱这个错误?

0 投票
1 回答
1344 浏览

python-3.x - 来自 pdfminer 的 pdfparser:PDFException:PDFDocument 未初始化

我不理解这个错误。我想打开一个pdf并循环浏览页面,但我遇到了这个异常,我通过谷歌搜索找不到太多。

这是失败的例子

这是回溯

我有 python 3.6

在执行此操作之前,我将像这样保存 pdf 文件,因为我将内容保存在 base64 编码字符串中

可能是文件在保存时受到了一些保护吗?

0 投票
1 回答
326 浏览

pdf - PDFplumber 密码和 check_extractable

我正在使用 pdfplumber 库来解析 pdf。访问 pdf 文件的方法是“pdfplumber.open(path)”。有人可以帮我如何传递密码和 check_extractable 参数。