“pdf2image”的相关标签问题

0 投票

1 回答

114 浏览

python - 当我尝试在 jpeg 中转换 pdf 时发生多个错误

我需要将 .pdf 文件转换为 .jpeg 文件来对文本进行 OCR。我找到了这段代码：

我得到了这个错误：

我在 .py 文件的同一目录中有 .pdf 文件。问题出在哪里？

2021-05-01T17:33:56.930

0 投票

0 回答

302 浏览

python-3.x - 安装了poppler，pdf2image路径错误好像没有解决方法。这已经解决了吗？

我在 docker 映像上运行 debian buster。我已经安装了每个 poppler 包来排除任何异常情况。我已经明确添加了所有 poppler 文件的路径，包括目录等。

pdf2image我已按照此处网站上提供的文档进行操作： https ://pdf2image.readthedocs.io/en/latest/installation.html#

并确认已安装 poppler 并使用推荐的方法在路径上：

在 docker 映像中运行时出现以下错误：

我仍然认为我犯了错误。但是，似乎搜索中弹出的结果表明这有点未解决，为 poppler 库和 python 包的一些（但不是全部）用户实现了工作场景pdf2image。

我对我使用的 debian 映像或 pdf2image 版本没有任何限制。

是否有可用的配置，这个问题是否已解决，或者是否存在错误的热点，每个人似乎都有类似的问题（我也陷入了同样的陷阱）？

python3 版本 3.8

python-3.x poppler debian-buster pdf2image

2021-05-03T00:29:02.453

0 投票

0 回答

206 浏览

python-3.x - AWS Lambda 上的 PDF2image - 导致 PNG 字体错误

我pdf2image convert_from_bytes在自己的 PDF 上使用，以便以 PNG 格式获取它们。上下文是 AWS Lambda，py 3.8。

尽管我能够“正确”生成 PNG（意味着所有信息和文本），但生成的 PNG 在此过程中似乎使用 Times New Roman 作为我在 PDF 中的每个段落的字体。同时，PDF 本身使用正确的字体正确显示，我确保它具有通过属性嵌入的字体。仅当我尝试将其转换为 PNG 格式时才会出现此问题。我也没有尝试使用任何花哨的字体，只有 Courier-Bold 和 Helvetica。

这是一个pdf示例（部分）：

结果图像：

到目前为止我尝试了什么？

我尝试使用一些在线工具转换我的 PDF，看看这是否有效，或者 PDF 本身是否存在问题。PNG 图像使用正确的字体是正确的。
我尝试使用我的 Lambda 函数处理一些随机 PDF，并且生成的 PNG 也具有正确的字体，因此转换似乎适用于大多数 PDF。
我尝试了几种不同的字体和相同的结果。
我尝试在 AWS lambda 中嵌入字体，有点这个在 AWS Lambda 中包含自定义字体但没有运气

但在这一点上，我一无所知。知道如何调试吗？

编辑：PDF字体属性

EDIT2： 我写了一个小python程序来为每个现有的基本字体生成一个句子。

然后当我通过它时，lambda我得到了这个：

python-3.x pdf aws-lambda fonts pdf2image

2021-05-03T21:16:19.353

0 投票

0 回答

86 浏览

heroku - PDFPageCountError：无法获取页数。pdfinfo：加载共享库时出错：liblcms.so.1：无法打开共享对象文件：

我正在尝试在 Heroku 上部署一个流线型应用程序。在 pdf2image 模块的帮助下，需要解析作为输入接受的 PDF。但是，上面的错误正在发生

heroku streamlit pdf2image

2021-05-11T04:20:33.207

0 投票

1 回答

561 浏览

python - 将PDF转换为图像的省时方法

语境：

我有正在使用的 PDF 文件。我正在使用ocr从这些文档中提取文本并且能够做到这一点，我必须将我的 pdf 文件转换为图像。我目前使用模块的convert_from_path功能，pdf2image但时间效率非常低（9page pdf 需要 9 分钟）。

问题：

我正在寻找一种方法来加速此过程或另一种将我的 PDF 文件转换为图像的方法。

附加信息：

我知道thread_count函数中有一个参数，但经过几次尝试，它似乎没有任何区别。

这是我正在使用的整个功能：

链接到 convert_from_path 参考。

python image pdf ocr pdf2image

2021-05-19T13:11:58.240

0 投票

3 回答

332 浏览

python - 为什么 pdf2image 给我一个空白图像文件？

我尝试在多个大 pdf 文件（约 400-600 页）上使用 Tesseract OCR 执行 OCR。我不一定要从所有页面中提取文本，但我只想要几页（页码已知）。PDF 文件似乎已经对其执行了某种 OCR，但这并不是一项好工作。当我运行我在 Jupyter 中编写的这段代码时：

我看到这个输出：[ images[0].show()1 的输出

输出应该是这样的：

我确实认为在 PDF 上完成的 OCR 在这里造成了一些问题。我不知道如何绕过它，有人可以帮忙吗？

我还通过手动将页面转换为图像（截图工具）来尝试 OCR，并且 OCR 引擎工作。我还尝试在pdf2image.convert_from_path()没有poppler_path选项的情况下使用选项或其他页面。我尝试阅读另一个 PDF 文件，它没有在其上执行OCR，它似乎工作。

python pdf ocr pdftoppm pdf2image

2021-06-06T17:01:08.290

0 投票

0 回答

35 浏览

python - 在 Python 中复制带有字段字段的 PDF 部分

我将尝试描述这个过程。

使用以下代码在交互式 PDF 中使用值“123456789”填写字段“Textovépole60”并保存：

然后，当我在 adobe reader 中打开 PDF 时，该值被填写在那里： Filled field
然后我想将页面从 PDF 转换为图像，但我没有在此处填写值运行脚本并使用以下代码在 spyder 中显示 pil_im：

请帮我！：）谢谢

python pdf python-tesseract pypdf pdf2image

2021-06-09T09:48:10.473

0 投票

1 回答

735 浏览

我正在尝试从包含文本的 pdf 中获取裁剪框，这对于为我的一个模型收集训练数据非常有用，这就是我需要它的原因。这是一个pdf样本： https ://github.com/tomasmarcos/tomrep/blob/tomasmarcos-example2delete/example%20-%20Git%20From%20Bottom%20Up.pdf ；例如，我想将第一个 boxtext 作为图像（jpg 或其他）获取，如下所示：

到目前为止我尝试的是以下代码，但我愿意以其他方式解决这个问题，所以如果你有其他方式，那就太好了。此代码是我在此处找到的解决方案（第一个答案）的修改版本如何从 PDF 文件中提取文本和文本坐标？; （只有我的代码的第一部分）；第二部分是我尝试过的，但到目前为止还没有工作，我也尝试用 pymupdf 读取图像，但根本没有改变任何东西（我不会发布这个尝试，因为帖子足够大）。

代码的第二部分，获取图像格式的裁剪框。

如您所见，框的坐标与图像不匹配，也许问题是因为 pdf2image 对图像大小或类似的东西做了一些技巧，但我正确指定了图像的大小，所以我不知道。任何解决方案/建议都非常受欢迎。提前致谢。

python pdf text-extraction pdfminer pdf2image

2021-06-16T12:49:55.123

0 投票

0 回答

32 浏览

ghostscript - 在nodejs lambda函数中使用childprocess.execFile执行ghostscript二进制文件

我正在尝试在 nodejs lambda 函数中运行 ghosscript 命令。我将 ghostscript 二进制文件保存在我的一个文件夹中。在这里使用 child_process.execFile 执行是我的代码。

但它给出了错误-

我的命令在终端中成功运行，但在 lambda 函数中，我在更改 args =[--version] 时遇到问题，然后它显示正确的输出。这意味着 Ghostscript 二进制文件是可执行的，但我的主要命令不是不起作用

ghostscript child-process execfile pdf2image

2021-06-24T12:12:58.990

0 投票

1 回答

85 浏览

pdf2image - pdf2image 在某些 pdf 上输出空白图像

我有代码可以在几乎所有的 PDF 上成功地将 PDF 转换为 PNG 文件，但我一直在尝试转换这个，它只保存每一页的空白图像。

请注意，我正在使用 Windows 10 来执行此操作。我可以成功获得 pdf2image 以在 Mac OS 上输出正确的图像。

这是我的代码：

pdf2image

2021-06-24T21:51:31.910

问题标签 [pdf2image]

python - 当我尝试在 jpeg 中转换 pdf 时发生多个错误

python-3.x - 安装了poppler，pdf2image路径错误好像没有解决方法。这已经解决了吗？

python-3.x - AWS Lambda 上的 PDF2image - 导致 PNG 字体错误

heroku - PDFPageCountError：无法获取页数。pdfinfo：加载共享库时出错：liblcms.so.1：无法打开共享对象文件：

python - 将PDF转换为图像的省时方法

python - 为什么 pdf2image 给我一个空白图像文件？

python - 在 Python 中复制带有字段字段的 PDF 部分

python - 如何从pdf中提取文本框并将其转换为图像

ghostscript - 在nodejs lambda函数中使用childprocess.execFile执行ghostscript二进制文件

pdf2image - pdf2image 在某些 pdf 上输出空白图像

问题标签 [pdf2image]

Reference