问题标签 [pdf2image]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 尝试遍历多个 PDF 文件并将这些 PDF 的各个页面保存为图像
我正在开发一个 python 项目,该项目需要我一个接一个地遍历存储在当前目录的一个名为 sample/ 的文件夹中的多个 pdf,并将这些 pdf 的各个页面作为图像保存在另一个名为 convert_images/ 的目录中。有人能帮我吗?所有 pdf 文件都是随机命名的,但具有“.pdf”扩展名。
python - 如何从pdf2image中的文件存储对象读取PDF?
我正在使用烧瓶,我正在上传一个 pdf 文件以将其转换为图像并使用 pytesseract 执行 OCR。
但是,pdf2image 无法读取上传的图像。我尝试在互联网上搜索,但我找不到任何东西。
我尝试直接传递文件存储对象,但出现错误,我的代码如下所示:
这给出了这个错误,
我也试过做,
这给出了错误:
python - pdf2image 字体错误并裁剪文本
我正在将我的 PDF 转换为Python
来自convert_from_path
库pdf2image
的图像。
如您所见,这里的问题是图像中的字体不是好的字体,并且缺少一些文本(底部的地址)。所以 :
- 为什么我的文字被裁剪?
- 如何将字体添加到
pdf2library
?
编辑:链接到 PDF(将其下载到您的计算机以查看正确的字体Mistral
)
python-3.x - Windows 11 中的 pdf2image
我在我的 Python 程序中使用 pdf2image.convert_from_bytes 将 PDF 页面字节转换为图像。当我创建一个可执行文件时,它在 Windows 10 上运行良好,但在 Windows 11 下没有显示任何结果。
pdf2image 的当前版本是“1.14.0”,在 Windows 10 和 Python 3.8.5(32 位)下
我该如何解决这个问题
python-3.x - 尝试使用 easyocr 准备图像,但我发现它需要更多时间,或者有时内核已经死机并且输出为空
我已将 pdf 转换为图像并转换为数组。
然而,在这个过程中它花费了太多时间或几乎内核死了,最后得到空的 o/p。
如何处理这个问题。请建议。
代码:
此处上述代码的 o/p 为空:[]
我尝试过的:
不使用循环,如果我只是给出image[0]
或image[1]
等,那么我会看到所需的 o/p 结果。
python - 试图绘制图像,但它没有按预期进行
我正在尝试为图像绘制一个框,但它不是预期的。请建议如何实现。
代码:
在上面的代码中,有 13 个图像(图像被转换为简历 pdf),我已经附加到 bounds 变量中 #Now 想要为这些图像绘制边界,但是 o/p 根本不起作用。
代码:
执行:draw_boxes(images 1 ,bound)
结果:什么也没发生。输出/输出