问题标签 [xpdf]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

68 问题

0 投票

1 回答

614 浏览

r - 如何在 R 中使用 pdftools 将大量 PDF 文件转换为 TXT 文件？

我正在尝试将大约 600 个充满表格的 pdf 文件提取为文本格式，以便进行一些数据探索。看起来 pdftool 是我完成工作的最佳选择，但帮助文件很简短。我找到的最接近的教程使用 xpdf。有没有办法使用 pdftools 做到这一点？

xpdf批处理教程

r xpdf

2017-09-20T14:52:26.703

0 投票

1 回答

1355 浏览

r - 正方体“pixCreateNoInit 中的错误：pix_malloc 数据失败”

但是，由于xPDF可以将 PDF 转换为 PNG，因此我跳过了 ImageMagick 转换步骤以及函数（i）过程的错误逻辑，因为 pdftopng 需要根名称，在这种情况下为“ocrbook-000001.png”，并在查找原始 PDF 文件名的 PNG 时引发错误。

我现在的问题是让 Tesseract 对我的 PNG 文件做任何事情。我得到错误：

这是我的代码：

r imagemagick ocr tesseract xpdf

user5509289

2017-11-03T20:53:34.573

0 投票

1 回答

1576 浏览

pdf - Type 3 字体转换

我正在将 Type3 字形字体从 Pdf 解析为 postscript。输入文件具有应用了数据流 flate 解码过滤器的内联图像。过滤器具有预测器 15。任何人都可以帮助我将图像流从 pdf 格式转换为 postscript。这就是在 pdf 中给出输入流的方式

这就是我试图在 Postscript 的输出中写的内容

pdf ghostscript acrobat postscript xpdf

2018-02-01T12:29:31.163

0 投票

1 回答

209 浏览

pdf - 如何在 postscript 中创建类型 3 字形

我正在使用 postscript 中的 type 3 字体。我正在尝试调试此文件并且出现错误。ioerror 图像掩码。pdf 文件中的输入字形如下所示。我已将二进制数据转换为 ascii hex，因为我发现无法按原样使用它。

下面是用于进一步演示的后记和 pdf 文件链接。 https://ufile.io/zmmjv https://ufile.io/2r2eb

pdf ghostscript postscript pdf-conversion xpdf

2018-02-20T06:27:45.783

0 投票

0 回答

93 浏览

r - xpdf 在带有 R 的 Windows 上返回错误（状态 127）

我已将 xpdf 文件下载并存储到我的 C: 磁盘中的一个目录中：

此外，我已经包含了环境路径的路径：

但是，我仍然收到一条错误消息：

r windows xpdf

2018-02-27T18:07:10.190

0 投票

1 回答

663 浏览

ubuntu-16.04 - pdftoppm 只转换 pdf 的第一页

我需要将 pdf 转换为 pgm，并且当我运行（示例）命令时

我将 pdf 的第一页作为输出。即使我清楚地将第一页指定为第 5 页。我没有指定 -singlefile 参数，这可能会导致这种情况。即使我指定一个页面，比如

，第一页被转换。任何指针？

ubuntu-16.04 xpdf pdftoppm

2018-03-17T05:38:43.480

0 投票

1 回答

108 浏览

debugging - 使用 adobe 蒸馏时发生错误。而不是在ghostscript中

我有一个 postscript 文件，当我用 ghostscript 打开它时，它显示输出没有错误。但是当我尝试用 adobe 提取它时，它会因以下错误而停止。

%%[错误：未定义；违规命令：show；ErrorInfo: MetricsCount --nostringval-- ]%% 我已经通过从文件中删除文本来缩短文件，现在输出中只有两个单词。

debugging ghostscript postscript xpdf

2018-03-28T13:06:40.457

0 投票

1 回答

442 浏览

text-extraction - 如何获取字符/单词/行/块坐标

我正在做 pdftotext -bbox file.pdf 并产生字级输出。有没有办法在字符/短语/行/块级别上输出坐标？

我很想知道 pdftotext 的 poppler 或 xpdf 版本是否可以做到这一点。

text-extraction pdftotext poppler pdf-scraping xpdf

2018-05-06T09:51:00.337

0 投票

0 回答

522 浏览

text-extraction - pdftotext 获取字体信息（字体系列、样式、大小）

我正在使用“ pdftotext -bbox file.pdf”将pdf文件转换为HTML.

这是输出中的示例行：

有没有办法获取每个单词的字体信息，例如：

字体系列，例如 Verdana
样式，即无、粗体、斜体
大小，例如字体大小 9

我很想知道 pdftotext 的 poppler 或 xpdf 版本是否可以做到这一点。

text-extraction pdftotext poppler pdf-scraping xpdf

2018-05-06T11:23:24.830

0 投票

0 回答

104 浏览

.net - xpdf 可以接受变量作为 Powershell 中的路径参数吗？

我收到一个错误：

使用以下代码行：

我怀疑这是一个错误，因为我正在运行的可执行文件不接受 Powershell 变量作为参数，但我不确定。如果是这种情况，是否有解决方法？

背景资料：

我正在编写一个脚本，它接受用户输入的 pdf 文件位置（通过文件打开对话框）并将结果存储在一个变量中，希望用作 xpdf 的 pdftotext.exe 的路径参数。

.net winforms powershell xpdf

2018-05-29T19:16:29.487

1 2 3 4 5 6 7 8 9 10