问题标签 [pdf2image]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
43 浏览

python - 尝试遍历多个 PDF 文件并将这些 PDF 的各个页面保存为图像

我正在开发一个 python 项目,该项目需要我一个接一个地遍历存储在当前目录的一个名为 sample/ 的文件夹中的多个 pdf,并将这些 pdf 的各个页面作为图像保存在另一个名为 convert_images/ 的目录中。有人能帮我吗?所有 pdf 文件都是随机命名的,但具有“.pdf”扩展名。

0 投票
1 回答
42 浏览

python - 如何从pdf2image中的文件存储对象读取PDF?

我正在使用烧瓶,我正在上传一个 pdf 文件以将其转换为图像并使用 pytesseract 执行 OCR。

但是,pdf2image 无法读取上传的图像。我尝试在互联网上搜索,但我找不到任何东西。

我尝试直接传递文件存储对象,但出现错误,我的代码如下所示:

这给出了这个错误,

我也试过做,

这给出了错误:

0 投票
1 回答
41 浏览

python - pdf2image 字体错误并裁剪文本

我正在将我的 PDF 转换为Python来自convert_from_pathpdf2image的图像。

这是原始 PDF: PDF格式

这是生成的图像: 图片

如您所见,这里的问题是图像中的字体不是好的字体,并且缺少一些文本(底部的地址)。所以 :

  • 为什么我的文字被裁剪?
  • 如何将字体添加到pdf2library

编辑:链接到 PDF(将其下载到您的计算机以查看正确的字体Mistral

0 投票
0 回答
18 浏览

python-3.x - Windows 11 中的 pdf2image

我在我的 Python 程序中使用 pdf2image.convert_from_bytes 将 PDF 页面字节转换为图像。当我创建一个可执行文件时,它在 Windows 10 上运行良好,但在 Windows 11 下没有显示任何结果。

pdf2image 的当前版本是“1.14.0”,在 Windows 10 和 Python 3.8.5(32 位)下

我该如何解决这个问题

0 投票
0 回答
26 浏览

python-3.x - 尝试使用 easyocr 准备图像,但我发现它需要更多时间,或者有时内核已经死机并且输出为空

我已将 pdf 转换为图像并转换为数组。
然而,在这个过程中它花费了太多时间或几乎内核死了,最后得到空的 o/p。

如何处理这个问题。请建议。

代码:

此处上述代码的 o/p 为空:[]

我尝试过的:
不使用循环,如果我只是给出image[0]image[1]等,那么我会看到所需的 o/p 结果。

0 投票
0 回答
11 浏览

python - 试图绘制图像,但它没有按预期进行

我正在尝试为图像绘制一个框,但它不是预期的。请建议如何实现。

代码:

在上面的代码中,有 13 个图像(图像被转换为​​简历 pdf),我已经附加到 bounds 变量中 #Now 想要为这些图像绘制边界,但是 o/p 根本不起作用。

代码:

执行:draw_boxes(images 1 ,bound)
结果:什么也没发生。输出/输出

在此处输入图像描述