问题标签 [pdfparser]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

26 问题

0 投票

1 回答

943 浏览

php - 抛出异常后继续执行脚本 PHP

我正在使用PDFParser并遇到一个抛出的异常，即使我把它放在try/catch下面的块中，也会破坏我的脚本。意思是，异常被echo编辑，但"Caught exception: "部分没有。我以为这正是try/catch为了什么？

github问题评论没有解决这个问题，所以我认为SO可以提供帮助。

2018-01-09T17:20:11.377

0 投票

0 回答

321 浏览

php - FPDF FPDI Parser 问题中的非法字符串偏移“/Root”

我有一个用户的多个 pdf 文件。因此，我为我们的用户提供了一个选项，可以在一个 PDF 文件中查看他的所有文档。

为此，我使用 FPDI pdf 解析器将所有 pdf 文件合并到一个文件中，然后显示给用户。但我得到以下错误：

下面给出了引发此错误的函数：

谁能告诉我这是什么问题。我已经尝试了很多，也搜索了很多东西，但都失败了。

提前致谢。

php fpdf fpdi pdfparser

2018-01-30T11:43:18.353

0 投票

0 回答

1473 浏览

php - TCPDF_PARSER 错误：无效的对象引用：数组

我正在使用库PDFparser ( https://github.com/smalot/pdfparser ) 将 PDF 文件转换为文本。

当我尝试在本地 Web 服务器上转换文件时，它解析正常。当我尝试在远程 Web 服务器上转换文件时，它失败并出现以下错误：TCPDF_PARSER ERROR: Invalid object reference: Array.

尽管存在类似的问题（两年都没有解决），但我在库的错误跟踪器中找不到合适的解决方案。

我怎样才能避免这个错误？或者我应该使用另一个库将 pdf 转换为文本（哪个）？

如文档中所述，我直接使用它：

php parsing pdf pdfparser

2018-02-04T03:02:03.603

0 投票

0 回答

55 浏览

javascript - 从express js中的PDF文件中获取空的组合框值

我正在使用 express.js 中的“pdf2json”解析器从 PDF 文件中获取空的组合框值。PDF 文件上的值在组合框中显示了不同的选项，并且它还在保存文件时存储了选择的状态，但是当我尝试解析文件时，它会解析除组合框值之外的所有字段。

单击以查看示例 PDF 图像

以下代码段用于从 PDF 中获取数据：-

我得到了所有字段的 JSON 数据的响应，但没有组合框值。

javascript express pdfparser

2018-03-14T13:12:39.767

0 投票

1 回答

1992 浏览

java - 如何使用 Selenium webdriver 和 Java 读取 PDF

我正在尝试使用 Java-Selenium 读取 PDF 文件的内容。下面是我的代码。getWebDriver 是框架中的自定义方法。它返回网络驱动程序。

如果我不将其解析为RandomAccessRead类型，则代码的第二行会给出编译时错误。

当我解析它时，我得到这个运行时错误：

java.lang.ClassCastException：java.io.BufferedInputStream 无法转换为 org.apache.pdfbox.io.RandomAccessRead

我需要帮助摆脱这些错误。

java selenium-webdriver pdfbox bufferedinputstream pdfparser

2018-07-04T10:19:37.813

0 投票

0 回答

207 浏览

php - 使用 php 和 pdf 解析器库在大文件夹中搜索 pdf 文件内容

我正在使用 pdf 解析器在包含大量 pdf 文件的文件夹中搜索，以便在 pdf 文件内容中进行搜索。该代码仅适用于最多 3 个小尺寸文件：

该代码最多可处理三个文件，否则我会收到消息“无法访问此站点”。我在本地工作，我正在使用 wamp 服务器 - 我正在使用 pdf 解析器库：https ://pdfparser.org 请帮助

php file pdf search pdfparser

2018-07-19T11:41:38.270

0 投票

1 回答

1263 浏览

php - Codeigniter 中的 PdfParser

我正在尝试在 Codeigniter 中使用 PdfParser 库（PDFparser 链接），所以首先我已经下载、解压缩并安装了 third_party/vendor 文件夹下的库，另外我已经下载、解压缩并安装了 tcpdf 库在同一个 third_party /供应商文件夹。由于我无法在远程服务器上运行 Composer，因此我在 thir_party/vendor 文件夹中创建了一个 autoload.php 文件。文件夹结构现在如下：

自动加载文件中用于加载所有依赖项的代码如下：

我在 Codeigniter 库文件夹中创建了一个新文件，该文件名为 Pdfparser.php，其内容如下：

在控制器中，我手动加载 libray 文件：

问题是当我尝试用

我收到以下错误：

有什么建议可以解决这个问题吗？非常感谢

php codeigniter pdfparser

2018-10-26T15:12:53.657

0 投票

0 回答

225 浏览

pdfbox - 如何在硒中解析pdf

我一直在尝试阅读在浏览器中打开的 pdf。通过以下硒代码。

得到错误：

java.io.IOException：错误：文件结束，预期行enter code here

如何摆脱这个错误？

pdfbox pdfparser

2019-01-31T12:40:51.927

0 投票

1 回答

1344 浏览

python-3.x - 来自 pdfminer 的 pdfparser：PDFException：PDFDocument 未初始化

我不理解这个错误。我想打开一个pdf并循环浏览页面，但我遇到了这个异常，我通过谷歌搜索找不到太多。

这是失败的例子

这是回溯

我有 python 3.6

在执行此操作之前，我将像这样保存 pdf 文件，因为我将内容保存在 base64 编码字符串中

可能是文件在保存时受到了一些保护吗？

python-3.x exception pdfminer pdfparser

2019-02-08T17:00:47.000

0 投票

1 回答

326 浏览

pdf - PDFplumber 密码和 check_extractable

我正在使用 pdfplumber 库来解析 pdf。访问 pdf 文件的方法是“pdfplumber.open(path)”。有人可以帮我如何传递密码和 check_extractable 参数。

pdf pdf-parsing pdfpages pdfparser pdftables

2019-02-22T10:45:32.853

1 2 3 4 5 6 7 8 9 10

问题标签 [pdfparser]

Reference