问题标签 [pdf2image]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
114 浏览

python - 当我尝试在 jpeg 中转换 pdf 时发生多个错误

我需要将 .pdf 文件转换为 .jpeg 文件来对文本进行 OCR。我找到了这段代码:

我得到了这个错误:

我在 .py 文件的同一目录中有 .pdf 文件。问题出在哪里?

0 投票
0 回答
302 浏览

python-3.x - 安装了poppler,pdf2image路径错误好像没有解决方法。这已经解决了吗?

我在 docker 映像上运行 debian buster。我已经安装了每个 poppler 包来排除任何异常情况。我已经明确添加了所有 poppler 文件的路径,包括目录等。

pdf2image我已按照此处网站上提供的文档进行操作: https ://pdf2image.readthedocs.io/en/latest/installation.html#

并确认已安装 poppler 并使用推荐的方法在路径上:

在 docker 映像中运行时出现以下错误:

我仍然认为我犯了错误。但是,似乎搜索中弹出的结果表明这有点未解决,为 poppler 库和 python 包的一些(但不是全部)用户实现了工作场景pdf2image

我对我使用的 debian 映像或 pdf2image 版本没有任何限制。

是否有可用的配置,这个问题是否已解决,或者是否存在错误的热点,每个人似乎都有类似的问题(我也陷入了同样的陷阱)?

python3 版本 3.8

0 投票
0 回答
206 浏览

python-3.x - AWS Lambda 上的 PDF2image - 导致 PNG 字体错误

pdf2image convert_from_bytes在自己的 PDF 上使用,以便以 PNG 格式获取它们。上下文是 AWS Lambda,py 3.8。

尽管我能够“正确”生成 PNG(意味着所有信息和文本),但生成的 PNG 在此过程中似乎使用 Times New Roman 作为我在 PDF 中的每个段落的字体。同时,PDF 本身使用正确的字体正确显示,我确保它具有通过属性嵌入的字体。仅当我尝试将其转换为 PNG 格式时才会出现此问题。我也没有尝试使用任何花哨的字体,只有 Courier-Bold 和 Helvetica。

这是一个pdf示例(部分): 好字体

结果图像: 在此处输入图像描述

到目前为止我尝试了什么?

  • 我尝试使用一些在线工具转换我的 PDF,看看这是否有效,或者 PDF 本身是否存在问题。PNG 图像使用正确的字体是正确的。
  • 我尝试使用我的 Lambda 函数处理一些随机 PDF,并且生成的 PNG 也具有正确的字体,因此转换似乎适用于大多数 PDF。
  • 我尝试了几种不同的字体和相同的结果。
  • 我尝试在 AWS lambda 中嵌入字体,有点这个在 AWS Lambda 中包含自定义字体但没有运气

但在这一点上,我一无所知。知道如何调试吗?

编辑:PDF字体属性 字体道具

EDIT2: 我写了一个小python程序来为每个现有的基本字体生成一个句子。 前

然后当我通过它时,lambda我得到了这个: 在此处输入图像描述

0 投票
0 回答
86 浏览

heroku - PDFPageCountError:无法获取页数。pdfinfo:加载共享库时出错:liblcms.so.1:无法打开共享对象文件:

我正在尝试在 Heroku 上部署一个流线型应用程序。在 pdf2image 模块的帮助下,需要解析作为输入接受的 PDF。但是,上面的错误正在发生

0 投票
1 回答
561 浏览

python - 将PDF转换为图像的省时方法

语境:

我有正在使用的 PDF 文件。我正在使用ocr从这些文档中提取文本并且能够做到这一点,我必须将我的 pdf 文件转换为图像。我目前使用模块的convert_from_path功能,pdf2image但时间效率非常低(9page pdf 需要 9 分钟)。

问题:

我正在寻找一种方法来加速此过程或另一种将我的 PDF 文件转换为图像的方法。

附加信息:

我知道thread_count函数中有一个参数,但经过几次尝试,它似乎没有任何区别。

这是我正在使用的整个功能:

链接到 convert_from_path 参考。

0 投票
3 回答
332 浏览

python - 为什么 pdf2image 给我一个空白图像文件?

我尝试在多个大 pdf 文件(约 400-600 页)上使用 Tesseract OCR 执行 OCR。我不一定要从所有页面中提取文本,但我只想要几页(页码已知)。PDF 文件似乎已经对其执行了某种 OCR,但这并不是一项好工作。当我运行我在 Jupyter 中编写的这段代码时:

我看到这个输出:[images[0].show()1 的输出

输出应该是这样的: 输入图像

我确实认为在 PDF 上完成的 OCR 在这里造成了一些问题。我不知道如何绕过它,有人可以帮忙吗?

我还通过手动将页面转换为图像(截图工具)来尝试 OCR,并且 OCR 引擎工作。我还尝试在pdf2image.convert_from_path()没有poppler_path选项的情况下使用选项或其他页面。我尝试阅读另一个 PDF 文件,它没有在其上执行OCR,它似乎工作。

0 投票
0 回答
35 浏览

python - 在 Python 中复制带有字段字段的 PDF 部分

我将尝试描述这个过程。

  1. 使用以下代码在交互式 PDF 中使用值“123456789”填写字段“Textovépole60”并保存:
  1. 然后,当我在 adobe reader 中打开 PDF 时,该值被填写在那里: Filled field

  2. 然后我想将页面从 PDF 转换为图像,但我没有在此处填写值运行脚本并使用以下代码在 spyder 中显示 pil_im

请帮我!:) 谢谢

0 投票
1 回答
735 浏览

python - 如何从pdf中提取文本框并将其转换为图像

我正在尝试从包含文本的 pdf 中获取裁剪框,这对于为我的一个模型收集训练数据非常有用,这就是我需要它的原因。这是一个pdf样本: https ://github.com/tomasmarcos/tomrep/blob/tomasmarcos-example2delete/example%20-%20Git%20From%20Bottom%20Up.pdf ;例如,我想将第一个 boxtext 作为图像(jpg 或其他)获取,如下所示:

在此处输入图像描述

到目前为止我尝试的是以下代码,但我愿意以其他方式解决这个问题,所以如果你有其他方式,那就太好了。此代码是我在此处找到的解决方案(第一个答案)的修改版本如何从 PDF 文件中提取文本和文本坐标?; (只有我的代码的第一部分);第二部分是我尝试过的,但到目前为止还没有工作,我也尝试用 pymupdf 读取图像,但根本没有改变任何东西(我不会发布这个尝试,因为帖子足够大)。

代码的第二部分,获取图像格式的裁剪框。

如您所见,框的坐标与图像不匹配,也许问题是因为 pdf2image 对图像大小或类似的东西做了一些技巧,但我正确指定了图像的大小,所以我不知道。任何解决方案/建议都非常受欢迎。提前致谢。

0 投票
0 回答
32 浏览

ghostscript - 在nodejs lambda函数中使用childprocess.execFile执行ghostscript二进制文件

我正在尝试在 nodejs lambda 函数中运行 ghosscript 命令。我将 ghostscript 二进制文件保存在我的一个文件夹中。在这里使用 child_process.execFile 执行是我的代码。

但它给出了错误-

我的命令在终端中成功运行,但在 lambda 函数中,我在更改 args =[--version] 时遇到问题,然后它显示正确的输出。这意味着 Ghostscript 二进制文件是可执行的,但我的主要命令不是不起作用

0 投票
1 回答
85 浏览

pdf2image - pdf2image 在某些 pdf 上输出空白图像

我有代码可以在几乎所有的 PDF 上成功地将 PDF 转换为 PNG 文件,但我一直在尝试转换这个,它只保存每一页的空白图像。

请注意,我正在使用 Windows 10 来执行此操作。我可以成功获得 pdf2image 以在 Mac OS 上输出正确的图像。

这是我的代码: