问题标签 [pdftoppm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
466 浏览

linux - PDF 到 ppm 保存渐进式 jpg

我正在尝试将 PDF 转换为 jpg 图像,但我希望将图像保存为渐进式 jpg。

pdftoppm用来做这个。这是命令:

$imageExecCommand = 'pdftoppm -jpeg -cropbox -r 100 -f' 。$pageToCopy 。'-l'。$pageToCopy 。' ' 。$本地PDF 。' ' 。服务器根目录。'/文件/' 。$哈希;

如何使 jpeg 渐进式?

0 投票
1 回答
1262 浏览

python - pdftoppm“无显示字体”错误

我正在使用 pdftoppm 从 pdf 文件中提取页面,因此以后可以使用 ImageMagick 将生成的 pbm 文件转换为多页 tiff。我已经使用以下代码使其工作:

但是,对于每个项目,即使我有 -q 标志来防止它们被写入输出,我也会不断收到这些错误:

错误:“符号”没有显示字体

错误:“Zapf Dingbats”没有显示字体

这是程序的已知错误,还是我应该采取其他措施来防止打印这些错误,因为它们会减慢我的程序速度?

0 投票
1 回答
1134 浏览

php - 在php中使用pdftoppm将pdf转换为图像而不在磁盘上写入文件

我需要在php中将pdf转换为png。由于质量原因,我们不想使用 Imagemagick,但更喜欢使用 pdftoppm。

为了性能,我们不喜欢使用文件系统,而是使用内存。

pdftoppm 已正确安装在 Ubuntu 上并且可以正常工作。

对于另一个项目(html -> pdf),我们使用以下代码:

这很完美!

但是如果我使用这段代码对 pdftoppm 做同样的事情,它不起作用,我做错了什么?

预先感谢您的提示和建议对不起我的英语不好..

0 投票
0 回答
57 浏览

r - 在 R 中将 .pdf 文件转换为 .ppm 时出错

我正在尝试在 pdf 上应用 OCR 以提取我正在关注这篇文章的文本,为此我需要首先将 pdf 文件转换为 ppm 格式,因为我们不能直接在 pdf 文件上应用 OCR。但是第一步本身并没有发生那么我如何将 pdf 转换为 ppm 以便对 pdf 文件进行 OCR。这是我的一篇文章,我在第一步本身遇到错误。任何建议都会有所帮助。谢谢。

0 投票
2 回答
1179 浏览

pdf - pdftoppm 无法创建输出

我正在从命令提示符运行 pdftoppm,但它无法创建任何输出。

这是我的输入

这是我在关联的“测试”目录中拥有的文件

这是我的命令的输出

没有抛出错误消息,也没有文件写入 c:\test 文件夹。我认为 pdftoppm.exe 会写入调用它的同一个文件夹。我错了,还是没有输出被写入?如果是这种情况,我如何让它产生一些输出。

0 投票
1 回答
663 浏览

ubuntu-16.04 - pdftoppm 只转换 pdf 的第一页

我需要将 pdf 转换为 pgm,并且当我运行(示例)命令时

我将 pdf 的第一页作为输出。即使我清楚地将第一页指定为第 5 页。我没有指定 -singlefile 参数,这可能会导致这种情况。即使我指定一个页面,比如

,第一页被转换。任何指针?

0 投票
1 回答
135 浏览

bash - bash 循环中的错误文件名

意图

我正在尝试遍历一个目录并将所有 9000 个左右的 pdf 文件转换为 png

问题

该循环仅适用于大约 500 个案例。当我在一些未转换的 pdf 文件上手动调用 pdftoppm 时,它可以工作。

例如,一个在循环中不起作用的文件是w7hnp - FOO BAR 8-18-12 NOT FINAL DOC.pdf. 当我使用制表符完成手动调用pdftoppm文件名时,包括转义字符:w7hnp\ -\ FOO\ BAR\ 8-18-12\ NOT\ FINAL\ DOC.pdf并且该命令工作正常。

有没有办法确保正确逃脱空间?

我需要保留文件名以与数据库中的其他信息匹配,因此除非我可以创建具有新旧名称的字典,否则重命名将不起作用。

0 投票
1 回答
290 浏览

python - subprocess.run 简单场景失败

我正在尝试运行 python subprocess.run 函数来执行以下命令:

pdftoppm - 是 poppler 实用程序的一部分,它从 pdf 文件生成图像。

文件 data/andromeda.pdf 存在。文件夹数据与 python 脚本和/或我运行命令的位置相同。命令基本上会从给定的and-page-1.jpeg格式(所谓的ppmtroot)文件的第1页(-f 1)200px宽(-scale-to)生成一个jpeg文件。

长话短说:从命令行它按预期工作,即如果我从 zsh 或 bash shell 手动调用上述命令 - 它会按预期生成缩略图。但是,如果我从 python 子进程模块运行它 - 它会失败它返回 99 错误代码!

以下是python代码(文件名为sc_02_thumbnails.py):

这里是包含 data/andromeda.pdf 文件的 repo 我用 as(来自 zsh)调用我的脚本:

并且...缩略图生成失败!我已经尝试从 zsh 和 bash shell 执行 python 脚本 :( 我做错了什么?

0 投票
1 回答
753 浏览

ghostscript - 如何在没有字体丢失的情况下将 PDF 转换为图像?

我已经阅读了大量关于从 PDF 转换(使用 ghostscript)到图像时字体问题的 stackoverflow 问题。

因为您没有嵌入字体,ghostscript 试图在您的系统中找到替代品并呈现更好的可能。

但我不明白为什么我的 MacOSX Preview 可以完美地呈现 PDF 而 ghostscript 不能。

我什至告诉 gs 字体在哪里。

这是输出。

问题是:为什么 MacOSX Preview 没有这个问题?它从哪里获取字体,以完美呈现?

0 投票
1 回答
608 浏览

python - 已解决:Python 多处理 imap BrokenPipeError: [Errno 32] Broken pipe pdftoppm

首先让我说这不是其他类似问题的重复,在这些问题中人们倾向于更密切地管理工人群体。

在使用 multiprocessing.Pool.imap 时,我一直在努力解决我的代码引发的以下异常:

这在执行以下主程序时出现在各个点:

仅供参考,部分函数采用非 OCR PDF 文件,将它们拆分为每个页面的图像,并使用 pytesseract 运行 OCR。

我在以下机器上运行代码:

也许我应该降低块大小?我真的不清楚。我注意到当服务器上可用的工作人员较少时,代码似乎工作得更好......