问题标签 [xpdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
614 浏览

r - 如何在 R 中使用 pdftools 将大量 PDF 文件转换为 TXT 文件?

我正在尝试将大约 600 个充满表格的 pdf 文件提取为文本格式,以便进行一些数据探索。看起来 pdftool 是我完成工作的最佳选择,但帮助文件很简短。我找到的最接近的教程使用 xpdf。有没有办法使用 pdftools 做到这一点?

xpdf批处理教程

0 投票
1 回答
1355 浏览

r - 正方体“pixCreateNoInit 中的错误:pix_malloc 数据失败”

但是,由于xPDF可以将 PDF 转换为 PNG,因此我跳过了 ImageMagick 转换步骤以及函数(i)过程的错误逻辑,因为 pdftopng 需要根名称,在这种情况下为“ocrbook-000001.png”,并在查找原始 PDF 文件名的 PNG 时引发错误。

我现在的问题是让 Tesseract 对我的 PNG 文件做任何事情。我得到错误:

这是我的代码:

0 投票
1 回答
1576 浏览

pdf - Type 3 字体转换

我正在将 Type3 字形字体从 Pdf 解析为 postscript。输入文件具有应用了数据流 flate 解码过滤器的内联图像。过滤器具有预测器 15。任何人都可以帮助我将图像流从 pdf 格式转换为 postscript。这就是在 pdf 中给出输入流的方式

这就是我试图在 Postscript 的输出中写的内容

0 投票
1 回答
209 浏览

pdf - 如何在 postscript 中创建类型 3 字形

我正在使用 postscript 中的 type 3 字体。我正在尝试调试此文件并且出现错误。ioerror 图像掩码。pdf 文件中的输入字形如下所示。我已将二进制数据转换为 ascii hex,因为我发现无法按原样使用它。

下面是用于进一步演示的后记和 pdf 文件链接。 https://ufile.io/zmmjv https://ufile.io/2r2eb

0 投票
0 回答
93 浏览

r - xpdf 在带有 R 的 Windows 上返回错误(状态 127)

我已将 xpdf 文件下载并存储到我的 C: 磁盘中的一个目录中:

在此处输入图像描述

此外,我已经包含了环境路径的路径:

在此处输入图像描述

但是,我仍然收到一条错误消息:

在此处输入图像描述

0 投票
1 回答
663 浏览

ubuntu-16.04 - pdftoppm 只转换 pdf 的第一页

我需要将 pdf 转换为 pgm,并且当我运行(示例)命令时

我将 pdf 的第一页作为输出。即使我清楚地将第一页指定为第 5 页。我没有指定 -singlefile 参数,这可能会导致这种情况。即使我指定一个页面,比如

,第一页被转换。任何指针?

0 投票
1 回答
108 浏览

debugging - 使用 adobe 蒸馏时发生错误。而不是在ghostscript中

我有一个 postscript 文件,当我用 ghostscript 打开它时,它显示输出没有错误。但是当我尝试用 adobe 提取它时,它会因以下错误而停止。

%%[错误:未定义;违规命令:show;ErrorInfo: MetricsCount --nostringval-- ]%% 我已经通过从文件中删除文本来缩短文件,现在输出中只有两个单词。

后记文件

0 投票
1 回答
442 浏览

text-extraction - 如何获取字符/单词/行/块坐标

我正在做 pdftotext -bbox file.pdf 并产生字级输出。有没有办法在字符/短语/行/块级别上输出坐标?

我很想知道 pdftotext 的 poppler 或 xpdf 版本是否可以做到这一点。

0 投票
0 回答
522 浏览

text-extraction - pdftotext 获取字体信息(字体系列、样式、大小)

我正在使用“ pdftotext -bbox file.pdf”将pdf文件转换为HTML.

这是输出中的示例行:

有没有办法获取每个单词的字体信息,例如:

  • 字体系列,例如 Verdana
  • 样式,即无、粗体、斜体
  • 大小,例如字体大小 9

我很想知道 pdftotext 的 poppler 或 xpdf 版本是否可以做到这一点。

0 投票
0 回答
104 浏览

.net - xpdf 可以接受变量作为 Powershell 中的路径参数吗?

我收到一个错误:

使用以下代码行:

我怀疑这是一个错误,因为我正在运行的可执行文件不接受 Powershell 变量作为参数,但我不确定。如果是这种情况,是否有解决方法?

背景资料:

我正在编写一个脚本,它接受用户输入的 pdf 文件位置(通过文件打开对话框)并将结果存储在一个变量中,希望用作 xpdf 的 pdftotext.exe 的路径参数。