问题标签 [xpdf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2569 浏览

linux - 用于检查 PDF 的 BASH 脚本是 ocr'd

真的不知道从哪里开始

我有一个超过 8000 个 PDf 的 linux 服务器,需要知道哪些 PDF 已经被 ocr'd 和哪些没有。

正在考虑某种脚本调用 XPDF 来检查 pdf,但老实说不确定这是否可能

提前感谢您的帮助

0 投票
3 回答
8714 浏览

php - 如何使用 xpdf 从 PDF 中提取文本?

我的文件夹中有很多 PDF。我想使用 xpdf 从这些 PDF 中提取文本。例如 :

  • example1.pdf 提取到 example1.txt
  • example2.pdf 提取到 example2.txt
  • ETC..

这是我的代码:

我得到空白结果。我的代码有什么问题?

0 投票
2 回答
1132 浏览

pdf - 获取 PDF 文件的正确字数

这个主题的回答帮助我理解了为什么有时我的 PDF 找不到单词,以及为什么我在使用不同的 PDF 字数统计程序时总是得到不同的字数。我决定使用xpdf. 我将其转换为文本并添加了 -layout 标记,然后使用 Word 2003 打开生成的文本文件。我记下了字数。然后,不幸的是,我决定删除 -layout 标记。不过,这一次,字数不同。

为什么那个标签会影响字数?是否有准确的方法来查找 PDF 文件的字数?如果必须的话,我什至会为这样的软件付费,只要它能给我正确的字数。

(我检查了另一个主题,但我想我会发现我刚刚提供的解决方案是否可以解决所有问题。还有另一个主题推荐使用 advancedpdf。)

0 投票
1 回答
189 浏览

wordpress - 有没有办法在 wordpress 中阅读 pdf 或 doc 文档?

我想在 wordpress 插件中阅读 pdf 或 doc 文档的文本内容。我下载了 xpdf 并用它来获取内容。但在 wordpress 插件或主题中,我无法获取内容。

我在插件中使用了这段代码,但 $content 变量为空。我怎么解决这个问题?

0 投票
2 回答
3837 浏览

pdf - 在 Postscript 中使用 BoundingBox/CropBox 裁剪 PDF

我想知道 Postscript 文件中 BoundingBox 和 CropBox 之间的实际区别是什么。我想裁剪 PDF 文件并仅将裁剪的部分显示为另一个 PDF 文件。我使用 xpdf 库中的 pdftops 将 PDF 文件转换为 postscript。我计划编辑 BoundingBox/CropBox 参数,以便只显示原始文件的特定部分。但是当我打开文件时,我仍然看到原始文件。我应该更改哪个参数来裁剪 PDF?

0 投票
3 回答
3215 浏览

php - shell_exec() 不执行 pdftotext 命令

我安装了所需的库及其在终端中的工作,但不在我的 php 文件中。我的代码是:

/usr/local/bin/pdftotext test.pdf test.txt如果我在终端中执行此命令,它工作正常。

我也写我的代码这种类型:

在错误日志中,消息是:

0 投票
2 回答
2090 浏览

php - PHP Explode 使用 Unicode 字符作为分隔符

XPDFs pdftotext 将 pdf 转换为文本并在命令行级别输出。如果需要,它会在 TextOutputDev.cc 中指定的页面之间插入 PageBreaks:

这个 Unicode 符号是独立于编码的,-enc ASCII7不会改变它。我目前愿意使用 PHP 将 PDF 文件转换和拆分为几个 TXT 页面用于数据库存储。但是,以下功能确实有效,但一次转换整个 PDF 所需的时间是转换的两倍。

我应该如何explode(0x0c, $wholePDF)使用 Unicode 字符作为分隔符?目前,page[$i] 似乎没有从 shell_exec() 中检索那些奇怪的 Unicode PageBreak 字符。我尝试了几个用于编码的标头(尤其是 UTF-8),但到目前为止还没有成功。

0 投票
1 回答
1600 浏览

perl - XPDF pdftotext 和页码处理

使用 perl 来利用 pdftotext 从 pdf 中提取文本。效果很好。我的问题是我正在阅读的 pdf 是多页的,我正在寻找每页顶部特定行的数据。以下代码将两个页面的全部内容转储到一个文件中。因为常量数据(在页面顶部)之后的数据长度会发生变化,所以我无法准确地从第 2 页中提取数据。我将如何先使用 pdftotext 或其他一些实用程序/模块逐步浏览每个页面,然后调用 pdftotext每个页面单独?

0 投票
6 回答
6391 浏览

php - 如何以原始格式从 PDF 中提取图像

我正在使用pdfimages -j bar.pdf /tmp/image从 PDF 中提取图像。我的目标是让它们在添加时处于原始状态。所以如果是.tif,我想得到一个.tif,如果是jpg,我想得到一个.jpg。对于我提取的所有内容,我不断获得 .ppm。

是否可以获得原始格式的图像或者 ppm 我唯一的选择?

更新:我想要这样做的主要目标是检查文档中包含的所有图像的 DPI,或者检查它们是否是矢量。

0 投票
1 回答
4613 浏览

centos - Centos 6 64位上的pdftotext?

我有一个 HostGator VPS 服务器,并且希望能够运行(http://www.foolabs.com/xpdf/download.htmlpdftotext的一部分。xpdf

在我的 Mac 上测试后,它运行良好,所以我将它安装在我的 VPS 服务器上。

我按照安装说明进行操作,一切都完美无缺:

  1. 将可执行文件(xpdf、pdftotext 等)复制到 /usr/local/bin。

  2. 将手册页(*.1 和 *.5)复制到 /usr/local/man/man1 和 /usr/local/man/man5。

  3. 将 sample-xpdfrc 文件复制到 /usr/local/etc/xpdfrc

然后我测试了它:

如您所见,它找不到/lib64/libc.so.6. /lib64/libc.so.6但是,是否存在,如下所示:

然后我联系了 HostGator,他们告诉我它无法在我的服务器上运行,因为它找不到/lib64/libc.so.6,因此在 Centos 6 64 位上不可用。

如果这确实是真的,是否有任何替代方法可以pdftotext在此服务器上进行简单快速的转换?是否pdftotext可以针对不同的版本进行编译,或者我使用权限错误地安装了它?