问题标签 [xpdf]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

68 问题

0 投票

2 回答

2569 浏览

linux - 用于检查 PDF 的 BASH 脚本是 ocr'd

真的不知道从哪里开始

我有一个超过 8000 个 PDf 的 linux 服务器，需要知道哪些 PDF 已经被 ocr'd 和哪些没有。

正在考虑某种脚本调用 XPDF 来检查 pdf，但老实说不确定这是否可能

提前感谢您的帮助

2011-11-03T15:20:32.183

0 投票

3 回答

8714 浏览

php - 如何使用 xpdf 从 PDF 中提取文本？

我的文件夹中有很多 PDF。我想使用 xpdf 从这些 PDF 中提取文本。例如：

example1.pdf 提取到 example1.txt
example2.pdf 提取到 example2.txt
ETC..

这是我的代码：

我得到空白结果。我的代码有什么问题？

php xpdf

2012-02-14T23:58:08.367

0 投票

2 回答

1132 浏览

pdf - 获取 PDF 文件的正确字数

这个主题的回答帮助我理解了为什么有时我的 PDF 找不到单词，以及为什么我在使用不同的 PDF 字数统计程序时总是得到不同的字数。我决定使用xpdf. 我将其转换为文本并添加了 -layout 标记，然后使用 Word 2003 打开生成的文本文件。我记下了字数。然后，不幸的是，我决定删除 -layout 标记。不过，这一次，字数不同。

为什么那个标签会影响字数？是否有准确的方法来查找 PDF 文件的字数？如果必须的话，我什至会为这样的软件付费，只要它能给我正确的字数。

（我检查了另一个主题，但我想我会发现我刚刚提供的解决方案是否可以解决所有问题。还有另一个主题推荐使用 advancedpdf。）

pdf xpdf

2012-03-01T14:23:54.683

0 投票

1 回答

189 浏览

wordpress - 有没有办法在 wordpress 中阅读 pdf 或 doc 文档？

我想在 wordpress 插件中阅读 pdf 或 doc 文档的文本内容。我下载了 xpdf 并用它来获取内容。但在 wordpress 插件或主题中，我无法获取内容。

我在插件中使用了这段代码，但 $content 变量为空。我怎么解决这个问题？

wordpress xpdf

2012-05-07T08:13:19.857

0 投票

2 回答

3837 浏览

pdf - 在 Postscript 中使用 BoundingBox/CropBox 裁剪 PDF

我想知道 Postscript 文件中 BoundingBox 和 CropBox 之间的实际区别是什么。我想裁剪 PDF 文件并仅将裁剪的部分显示为另一个 PDF 文件。我使用 xpdf 库中的 pdftops 将 PDF 文件转换为 postscript。我计划编辑 BoundingBox/CropBox 参数，以便只显示原始文件的特定部分。但是当我打开文件时，我仍然看到原始文件。我应该更改哪个参数来裁剪 PDF？

pdf postscript xpdf

2012-07-11T21:50:00.930

0 投票

3 回答

3215 浏览

php - shell_exec() 不执行 pdftotext 命令

我安装了所需的库及其在终端中的工作，但不在我的 php 文件中。我的代码是：

/usr/local/bin/pdftotext test.pdf test.txt如果我在终端中执行此命令，它工作正常。

我也写我的代码这种类型：

在错误日志中，消息是：

php shell-exec pdftotext xpdf

user1360768

2012-09-01T08:46:42.770

0 投票

2 回答

2090 浏览

php - PHP Explode 使用 Unicode 字符作为分隔符

XPDFs pdftotext 将 pdf 转换为文本并在命令行级别输出。如果需要，它会在 TextOutputDev.cc 中指定的页面之间插入 PageBreaks：

这个 Unicode 符号是独立于编码的，-enc ASCII7不会改变它。我目前愿意使用 PHP 将 PDF 文件转换和拆分为几个 TXT 页面用于数据库存储。但是，以下功能确实有效，但一次转换整个 PDF 所需的时间是转换的两倍。

我应该如何explode(0x0c, $wholePDF)使用 Unicode 字符作为分隔符？目前，page[$i] 似乎没有从 shell_exec() 中检索那些奇怪的 Unicode PageBreak 字符。我尝试了几个用于编码的标头（尤其是 UTF-8），但到目前为止还没有成功。

php unicode explode pdftotext xpdf

2012-09-02T09:36:06.880

0 投票

1 回答

1600 浏览

perl - XPDF pdftotext 和页码处理

使用 perl 来利用 pdftotext 从 pdf 中提取文本。效果很好。我的问题是我正在阅读的 pdf 是多页的，我正在寻找每页顶部特定行的数据。以下代码将两个页面的全部内容转储到一个文件中。因为常量数据（在页面顶部）之后的数据长度会发生变化，所以我无法准确地从第 2 页中提取数据。我将如何先使用 pdftotext 或其他一些实用程序/模块逐步浏览每个页面，然后调用 pdftotext每个页面单独？

perl cgi xpdf

2012-10-09T14:16:17.337

0 投票

6 回答

6391 浏览

php - 如何以原始格式从 PDF 中提取图像

我正在使用pdfimages -j bar.pdf /tmp/image从 PDF 中提取图像。我的目标是让它们在添加时处于原始状态。所以如果是.tif，我想得到一个.tif，如果是jpg，我想得到一个.jpg。对于我提取的所有内容，我不断获得 .ppm。

是否可以获得原始格式的图像或者 ppm 我唯一的选择？

更新：我想要这样做的主要目标是检查文档中包含的所有图像的 DPI，或者检查它们是否是矢量。

php pdf xpdf

2013-01-25T13:04:16.793

0 投票

1 回答

4613 浏览

centos - Centos 6 64位上的pdftotext？

我有一个 HostGator VPS 服务器，并且希望能够运行（http://www.foolabs.com/xpdf/download.html）pdftotext的一部分。xpdf

在我的 Mac 上测试后，它运行良好，所以我将它安装在我的 VPS 服务器上。

我按照安装说明进行操作，一切都完美无缺：

将可执行文件（xpdf、pdftotext 等）复制到 /usr/local/bin。

将手册页（*.1 和 *.5）复制到 /usr/local/man/man1 和 /usr/local/man/man5。

将 sample-xpdfrc 文件复制到 /usr/local/etc/xpdfrc

然后我测试了它：

如您所见，它找不到/lib64/libc.so.6. /lib64/libc.so.6但是，是否存在，如下所示：

然后我联系了 HostGator，他们告诉我它无法在我的服务器上运行，因为它找不到/lib64/libc.so.6，因此在 Centos 6 64 位上不可用。

如果这确实是真的，是否有任何替代方法可以pdftotext在此服务器上进行简单快速的转换？是否pdftotext可以针对不同的版本进行编译，或者我使用权限错误地安装了它？

centos hosting pdftotext xpdf centos6

2013-02-12T00:39:19.800

1 2 3 4 5 6 7 8 9 10

问题标签 [xpdf]

Reference