问题标签 [pdf2image]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何安装 python-poppler
我poppler
从https://github.com/oschwartz10612/poppler-windows/releases/tag/v21.03.0下载并尝试pip install python-poppler
在命令提示符中安装它。它发现了错误:
我已经提取了python poppler zip文件并将其放在当前路径中,但是单击该文件夹无法安装它,我该如何安装它?该文件夹如下所示:
编辑:
我试着跑步
它发现了错误:
python - Python 脚本中“pdf2image”的模块未找到错误
我正在做一个从一堆扫描的 PDF 中提取文本的项目。我正在关注本教程。第一步之一涉及导入模块。我在导入“pdf2image”时遇到了一些问题。对于上下文,我在 VS Code 的 Python 终端中使用名为“textExtractor”的 Conda 环境。我通过运行“Conda list”检查了是否安装了 pdf2image,它看起来已经安装。但是,当我运行 python 脚本时,我收到一条错误消息,
(textExtractor) C:\Users\mhiebing\Documents\GitHub_Repos\MonthlyStatsExtract>C:/Users/mhiebing/Anaconda3/python.exe c:/Users/mhiebing/Documents/GitHub_Repos/MonthlyStatsExtract/PDF_to_Image.py
回溯(最近一次通话最后):文件“c:/Users/mhiebing/Documents/GitHub_Repos/MonthlyStatsExtract/PDF_to_Image.py”,第 1 行,从 pdf2image 导入 convert_from_path,convert_from_bytes
ModuleNotFoundError:没有名为“pdf2image”的模块
知道出了什么问题吗?
python-3.x - 将 PDFS 插入 xhtml2pdf
我希望我的问题不是太独特。我正在使用 Django 框架和 xhtml2pdf 库。
我的每个“部分”都与使用 xhtml2pdf 库插入 pdf 的认证文档相关联。这非常适合 jpeg 和 png。
当我的认证文件之一是 pdf 时,问题就出现了。是页面留空。也许这是因为我插入到生成的 pdf(使用 xhtml2pdf 创建)中的 pdf(证明文件)不止一页。
我的解决方案:使用模板标签(将路径作为参数传递)并将图像分解为多个 jpeg,返回一个图像数组。
不完整的解决方案:
我知道这不是正确的尝试...
任何建议和帮助将不胜感激!
python - 未找到 Python 模块 - 子目录
我的主脚本读取位于子文件夹“模型”中的另一个脚本。在最近的技术更新/整机更新之前,代码一直运行良好。 错误显示:未找到模块。当我尝试导入以前完美运行的库时也会发生错误。不过,导入 tensorflow 和 keras 等其他库没有问题。怀疑调用路径目录的问题,但不确定如何处理和解决。
项目结构如下。我将为这个项目运行 mainscript.py。
非常感谢任何指导!
python - pdf2image python 上传pdf文档
convert_from_bytes
我已经使用导致 PIL 列表的方法将位于我的 s3 存储桶中的 pdf 转换为图像
[<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=1700x2200 at 0x7F55BB8BBEB0>, <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=1700x2200 at 0x7F55BA2C4280>]
那太好了,我想将此列表中的 JPG 图像对象转换回单个 pdf,然后将其上传回 s3,我该如何处理。
python - 将 PDF 渲染成图像(自包含,无外部命令行依赖项)(在 AWS Lambda 上使用)
我需要一个简单的 python 库来将 PDF 转换为图像(按原样渲染 PDF),但是经过数小时的搜索,我一直在碰壁,我找到pdf2image
了依赖于外部应用程序的 python 库(以及许多类似的库)之类的库或包装命令行工具。
尽管有一些变通方法允许在无服务器设置中使用这些库,但它们都会使我们的部署复杂化,并且需要创建类似Execution Environments
或额外的 lambda 层,这将消耗较小的允许 lambda 大小。
是否有一个独立的、独立的机制(不依赖于命令行工具)来实现这个(看似简单的)任务?
另外,我想知道,处理 PDF 的工具稀缺(它们大多是商业的或严格的 AGPL 许可)是否有原因(许可或专利)?
python - '是否已安装 poppler 并在 PATH 中' - 在 android 中运行 pdf2Image 脚本
我有一个使用 pdf2Image 的自定义 python 脚本,我试图在安卓手机上运行。我试过这两种方法
- 使用可以在 android 上运行 python 脚本的 android 应用程序。
- 创建一个 android 应用程序并集成我的 python 代码(使用chaquopy)。
但在这两种情况下,我都得到
W/System.err: com.chaquo.python.PyException: PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?
我的脚本在 ubuntu 终端上无缝运行(使用python <scriptFileName.py>
)但是当我尝试在 android 上执行时,它给了我上述问题
我的麻烦是我无法理解如何安装 poppler,或者将其添加到 android 中的 PATH 中。
以下是将 PDF 转换为 JPEG 图像的脚本(模块名称 = pdf2Img.py):
这就是我调用它的方式
错误即将到来
几个参考:
django - pytesseract 从 pdf 读取自动生成的图像后 Django 应用程序崩溃
当用户将文件上传到我的系统时,我会启动一个新线程来扫描它们以找到特定模式,同时处理上传的视图返回并且应用程序被重定向到主页。
在 func1() 中,如果文件是 PDF,我将其分成页面,然后保存并分析每个页面,如下所示:
如果输入文件已经是图像(png、jpg、jpeg),则省略分页,一切正常。但是,如果文件是 PDF,系统会在此处崩溃:
这让我认为pdf2image或poppler-utils存在问题。但是,当输入文件是图像时,此函数也会成功执行。
Apache2 error.log 打印这个:
从守护进程“process_name”收到的截断或过大的响应标头:/home/ubuntu/proejctname/appname/appname/wsgi.py,引用者:https ://xxxxxxxx.es/yyyyyyy/
进口:
附加信息:
- Ubuntu 18.04.4 LTS
- Django 3.6.9
- 阿帕奇/2.4.29
谢谢!
python - 如何在 Python 中将多个 PDF 转换为同一文件夹中的图像?
但现在我想将 100 多个 pdf 文件转换为图像。有什么办法吗?提前致谢。
python - 使用python将pdf转换为png(没有pdf2image)
我想将 pdf(一页)转换为 png 文件。我安装了 pdf2image 并收到此错误:windows 中未安装 popler。
根据这个问题: Poppler in path for pdf2image,应该安装 poppler 并修改 PATH 。
我不能做任何这些(我在我正在使用的系统中没有必要的权限)。
我查看了 opencv 和 PIL,似乎没有一个提供进行这种转换的可能性:PIL(请参见此处https://pillow.readthedocs.io/en/stable/handbook/image-file-formats.html?highlight= pdf#pdf ) 不提供阅读 pdf 的可能性,只能将图像保存为 pdf。openCV 也是如此。
任何建议如何使 pdf 到 png 转换?我可以安装任何 python 库,但我无法触摸 Windows 安装。
谢谢