问题标签 [xpdf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
linux - 用于检查 PDF 的 BASH 脚本是 ocr'd
真的不知道从哪里开始
我有一个超过 8000 个 PDf 的 linux 服务器,需要知道哪些 PDF 已经被 ocr'd 和哪些没有。
正在考虑某种脚本调用 XPDF 来检查 pdf,但老实说不确定这是否可能
提前感谢您的帮助
php - 如何使用 xpdf 从 PDF 中提取文本?
我的文件夹中有很多 PDF。我想使用 xpdf 从这些 PDF 中提取文本。例如 :
- example1.pdf 提取到 example1.txt
- example2.pdf 提取到 example2.txt
- ETC..
这是我的代码:
我得到空白结果。我的代码有什么问题?
pdf - 获取 PDF 文件的正确字数
这个主题的回答帮助我理解了为什么有时我的 PDF 找不到单词,以及为什么我在使用不同的 PDF 字数统计程序时总是得到不同的字数。我决定使用xpdf
. 我将其转换为文本并添加了 -layout 标记,然后使用 Word 2003 打开生成的文本文件。我记下了字数。然后,不幸的是,我决定删除 -layout 标记。不过,这一次,字数不同。
为什么那个标签会影响字数?是否有准确的方法来查找 PDF 文件的字数?如果必须的话,我什至会为这样的软件付费,只要它能给我正确的字数。
(我检查了另一个主题,但我想我会发现我刚刚提供的解决方案是否可以解决所有问题。还有另一个主题推荐使用 advancedpdf。)
wordpress - 有没有办法在 wordpress 中阅读 pdf 或 doc 文档?
我想在 wordpress 插件中阅读 pdf 或 doc 文档的文本内容。我下载了 xpdf 并用它来获取内容。但在 wordpress 插件或主题中,我无法获取内容。
我在插件中使用了这段代码,但 $content 变量为空。我怎么解决这个问题?
pdf - 在 Postscript 中使用 BoundingBox/CropBox 裁剪 PDF
我想知道 Postscript 文件中 BoundingBox 和 CropBox 之间的实际区别是什么。我想裁剪 PDF 文件并仅将裁剪的部分显示为另一个 PDF 文件。我使用 xpdf 库中的 pdftops 将 PDF 文件转换为 postscript。我计划编辑 BoundingBox/CropBox 参数,以便只显示原始文件的特定部分。但是当我打开文件时,我仍然看到原始文件。我应该更改哪个参数来裁剪 PDF?
php - shell_exec() 不执行 pdftotext 命令
我安装了所需的库及其在终端中的工作,但不在我的 php 文件中。我的代码是:
/usr/local/bin/pdftotext test.pdf test.txt
如果我在终端中执行此命令,它工作正常。
我也写我的代码这种类型:
在错误日志中,消息是:
php - PHP Explode 使用 Unicode 字符作为分隔符
XPDFs pdftotext 将 pdf 转换为文本并在命令行级别输出。如果需要,它会在 TextOutputDev.cc 中指定的页面之间插入 PageBreaks:
这个 Unicode 符号是独立于编码的,-enc ASCII7
不会改变它。我目前愿意使用 PHP 将 PDF 文件转换和拆分为几个 TXT 页面用于数据库存储。但是,以下功能确实有效,但一次转换整个 PDF 所需的时间是转换的两倍。
我应该如何explode(0x0c, $wholePDF)
使用 Unicode 字符作为分隔符?目前,page[$i] 似乎没有从 shell_exec() 中检索那些奇怪的 Unicode PageBreak 字符。我尝试了几个用于编码的标头(尤其是 UTF-8),但到目前为止还没有成功。
perl - XPDF pdftotext 和页码处理
使用 perl 来利用 pdftotext 从 pdf 中提取文本。效果很好。我的问题是我正在阅读的 pdf 是多页的,我正在寻找每页顶部特定行的数据。以下代码将两个页面的全部内容转储到一个文件中。因为常量数据(在页面顶部)之后的数据长度会发生变化,所以我无法准确地从第 2 页中提取数据。我将如何先使用 pdftotext 或其他一些实用程序/模块逐步浏览每个页面,然后调用 pdftotext每个页面单独?
php - 如何以原始格式从 PDF 中提取图像
我正在使用pdfimages -j bar.pdf /tmp/image
从 PDF 中提取图像。我的目标是让它们在添加时处于原始状态。所以如果是.tif,我想得到一个.tif,如果是jpg,我想得到一个.jpg。对于我提取的所有内容,我不断获得 .ppm。
是否可以获得原始格式的图像或者 ppm 我唯一的选择?
更新:我想要这样做的主要目标是检查文档中包含的所有图像的 DPI,或者检查它们是否是矢量。
centos - Centos 6 64位上的pdftotext?
我有一个 HostGator VPS 服务器,并且希望能够运行(http://www.foolabs.com/xpdf/download.html)pdftotext
的一部分。xpdf
在我的 Mac 上测试后,它运行良好,所以我将它安装在我的 VPS 服务器上。
我按照安装说明进行操作,一切都完美无缺:
将可执行文件(xpdf、pdftotext 等)复制到 /usr/local/bin。
将手册页(*.1 和 *.5)复制到 /usr/local/man/man1 和 /usr/local/man/man5。
将 sample-xpdfrc 文件复制到 /usr/local/etc/xpdfrc
然后我测试了它:
如您所见,它找不到/lib64/libc.so.6
. /lib64/libc.so.6
但是,是否存在,如下所示:
然后我联系了 HostGator,他们告诉我它无法在我的服务器上运行,因为它找不到/lib64/libc.so.6
,因此在 Centos 6 64 位上不可用。
如果这确实是真的,是否有任何替代方法可以pdftotext
在此服务器上进行简单快速的转换?是否pdftotext
可以针对不同的版本进行编译,或者我使用权限错误地安装了它?