问题标签 [pdf2image]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 当我尝试在 jpeg 中转换 pdf 时发生多个错误
我需要将 .pdf 文件转换为 .jpeg 文件来对文本进行 OCR。我找到了这段代码:
我得到了这个错误:
我在 .py 文件的同一目录中有 .pdf 文件。问题出在哪里?
python-3.x - 安装了poppler,pdf2image路径错误好像没有解决方法。这已经解决了吗?
我在 docker 映像上运行 debian buster。我已经安装了每个 poppler 包来排除任何异常情况。我已经明确添加了所有 poppler 文件的路径,包括目录等。
pdf2image
我已按照此处网站上提供的文档进行操作: https ://pdf2image.readthedocs.io/en/latest/installation.html#
并确认已安装 poppler 并使用推荐的方法在路径上:
在 docker 映像中运行时出现以下错误:
我仍然认为我犯了错误。但是,似乎搜索中弹出的结果表明这有点未解决,为 poppler 库和 python 包的一些(但不是全部)用户实现了工作场景pdf2image
。
我对我使用的 debian 映像或 pdf2image 版本没有任何限制。
是否有可用的配置,这个问题是否已解决,或者是否存在错误的热点,每个人似乎都有类似的问题(我也陷入了同样的陷阱)?
python3 版本 3.8
python-3.x - AWS Lambda 上的 PDF2image - 导致 PNG 字体错误
我pdf2image convert_from_bytes
在自己的 PDF 上使用,以便以 PNG 格式获取它们。上下文是 AWS Lambda,py 3.8。
尽管我能够“正确”生成 PNG(意味着所有信息和文本),但生成的 PNG 在此过程中似乎使用 Times New Roman 作为我在 PDF 中的每个段落的字体。同时,PDF 本身使用正确的字体正确显示,我确保它具有通过属性嵌入的字体。仅当我尝试将其转换为 PNG 格式时才会出现此问题。我也没有尝试使用任何花哨的字体,只有 Courier-Bold 和 Helvetica。
到目前为止我尝试了什么?
- 我尝试使用一些在线工具转换我的 PDF,看看这是否有效,或者 PDF 本身是否存在问题。PNG 图像使用正确的字体是正确的。
- 我尝试使用我的 Lambda 函数处理一些随机 PDF,并且生成的 PNG 也具有正确的字体,因此转换似乎适用于大多数 PDF。
- 我尝试了几种不同的字体和相同的结果。
- 我尝试在 AWS lambda 中嵌入字体,有点这个在 AWS Lambda 中包含自定义字体但没有运气
但在这一点上,我一无所知。知道如何调试吗?
heroku - PDFPageCountError:无法获取页数。pdfinfo:加载共享库时出错:liblcms.so.1:无法打开共享对象文件:
我正在尝试在 Heroku 上部署一个流线型应用程序。在 pdf2image 模块的帮助下,需要解析作为输入接受的 PDF。但是,上面的错误正在发生
python - 将PDF转换为图像的省时方法
语境:
我有正在使用的 PDF 文件。我正在使用ocr
从这些文档中提取文本并且能够做到这一点,我必须将我的 pdf 文件转换为图像。我目前使用模块的convert_from_path
功能,pdf2image
但时间效率非常低(9page pdf 需要 9 分钟)。
问题:
我正在寻找一种方法来加速此过程或另一种将我的 PDF 文件转换为图像的方法。
附加信息:
我知道thread_count
函数中有一个参数,但经过几次尝试,它似乎没有任何区别。
这是我正在使用的整个功能:
链接到 convert_from_path 参考。
python - 为什么 pdf2image 给我一个空白图像文件?
我尝试在多个大 pdf 文件(约 400-600 页)上使用 Tesseract OCR 执行 OCR。我不一定要从所有页面中提取文本,但我只想要几页(页码已知)。PDF 文件似乎已经对其执行了某种 OCR,但这并不是一项好工作。当我运行我在 Jupyter 中编写的这段代码时:
我看到这个输出:[
我确实认为在 PDF 上完成的 OCR 在这里造成了一些问题。我不知道如何绕过它,有人可以帮忙吗?
我还通过手动将页面转换为图像(截图工具)来尝试 OCR,并且 OCR 引擎工作。我还尝试在pdf2image.convert_from_path()
没有poppler_path
选项的情况下使用选项或其他页面。我尝试阅读另一个 PDF 文件,它没有在其上执行OCR,它似乎工作。
python - 在 Python 中复制带有字段字段的 PDF 部分
我将尝试描述这个过程。
- 使用以下代码在交互式 PDF 中使用值“123456789”填写字段“Textovépole60”并保存:
然后,当我在 adobe reader 中打开 PDF 时,该值被填写在那里: Filled field
然后我想将页面从 PDF 转换为图像,但我没有在此处填写值运行脚本并使用以下代码在 spyder 中显示 pil_im:
请帮我!:) 谢谢
python - 如何从pdf中提取文本框并将其转换为图像
我正在尝试从包含文本的 pdf 中获取裁剪框,这对于为我的一个模型收集训练数据非常有用,这就是我需要它的原因。这是一个pdf样本: https ://github.com/tomasmarcos/tomrep/blob/tomasmarcos-example2delete/example%20-%20Git%20From%20Bottom%20Up.pdf ;例如,我想将第一个 boxtext 作为图像(jpg 或其他)获取,如下所示:
到目前为止我尝试的是以下代码,但我愿意以其他方式解决这个问题,所以如果你有其他方式,那就太好了。此代码是我在此处找到的解决方案(第一个答案)的修改版本如何从 PDF 文件中提取文本和文本坐标?; (只有我的代码的第一部分);第二部分是我尝试过的,但到目前为止还没有工作,我也尝试用 pymupdf 读取图像,但根本没有改变任何东西(我不会发布这个尝试,因为帖子足够大)。
代码的第二部分,获取图像格式的裁剪框。
如您所见,框的坐标与图像不匹配,也许问题是因为 pdf2image 对图像大小或类似的东西做了一些技巧,但我正确指定了图像的大小,所以我不知道。任何解决方案/建议都非常受欢迎。提前致谢。
ghostscript - 在nodejs lambda函数中使用childprocess.execFile执行ghostscript二进制文件
我正在尝试在 nodejs lambda 函数中运行 ghosscript 命令。我将 ghostscript 二进制文件保存在我的一个文件夹中。在这里使用 child_process.execFile 执行是我的代码。
但它给出了错误-
我的命令在终端中成功运行,但在 lambda 函数中,我在更改 args =[--version] 时遇到问题,然后它显示正确的输出。这意味着 Ghostscript 二进制文件是可执行的,但我的主要命令不是不起作用
pdf2image - pdf2image 在某些 pdf 上输出空白图像
我有代码可以在几乎所有的 PDF 上成功地将 PDF 转换为 PNG 文件,但我一直在尝试转换这个,它只保存每一页的空白图像。
请注意,我正在使用 Windows 10 来执行此操作。我可以成功获得 pdf2image 以在 Mac OS 上输出正确的图像。
这是我的代码: