0 投票

1 回答

737 浏览

php - 如何在共享驱动器上执行 xpdf (pdftotext.exe)？

我试图通过和（pdftotext.exe）将pdf解析为文本。在我的本地主机上一切正常，但是当我试图移动服务器上的所有内容时，我遇到了麻烦。PHPXPDF

首先，我检查了服务器上的一些设置，并且安全模式已关闭，exec未禁用且权限为rwxrwxrwx。

然后我试试这个

这不起作用。当我查看为$result, $output,空时，但 $args 返回 1，这与此文档windows 系统错误代码对应的函数不正确

整个命令看起来像\\149.223.22.11\cae\04_Knowledge-base\tools\pdftotext.exe -enc UTF-8 \\149.223.22.11\cae\04_Knowledge-base\testpdf\04_egerland_final_paper.pdf \\149.223.22.11\cae\04_Knowledge-base\output.txt，当直接输入到命令行时，它的工作。

所以我有点没有想法。有人有任何提示吗？

编辑 20160201 - 附加尝试所以我做了附加测试，当我尝试从 localhost 运行类似的命令时（目标 .exe 文件，输入和输出文件位于同一位置，只有我使用 localhost 而不是服务器）它的工作。我现在检查服务器设置的差异。那么这里有问题吗，localhosts Server Api 是Apache 2.0 Handler 而服务器是CGI/FASTCGI吗？

2016-01-28T14:04:57.867

0 投票

1 回答

74 浏览

xpdf - 使用 xpdf 仅将部分页面从 PDF 转换为 TIF

我正在使用此命令将 PDF 转换为标准输出上的 TIF 图像：

如果PDF有多页，如何只转换第一页？

xpdf

2016-02-15T08:31:40.310

0 投票

2 回答

3677 浏览

r - 在 Windows 上安装 pdftotext（用于 R，'tm' 包）

我在使用 R 'tm' 包读取 .pdf 文件时遇到问题。具体来说，我尝试运行以下代码：

...这给了我错误：

我认为这是因为 pdftotext 程序（xpdf 的一部分，http://www.foolabs.com/xpdf/download.html）没有正确安装在我的机器上，因此 R 无法访问它。

正确安装 xpdf/pdftotext 以便执行上述 R 代码的步骤是什么？（我知道已经发布了类似的问题，但是它们没有解决相同的问题）

r tm pdftotext xpdf

2016-03-23T11:49:14.843

0 投票

1 回答

1218 浏览

pdftotext - pdftotext 二进制文件的特定版本（旧版本的 poppler-utils 版本不同）？

一直在挖掘，努力寻找答案。

在我们pdftotext的 OSX 开发系统上拥有单个二进制文件的 0.39 版本（使用brew install poppler. brew search popplerpdf 文件我们只适用于这个版本（不是较新的版本）。（尝试了其他的东西，比如 Ghostscript pdftk，但布局不起作用）。

我曾尝试下载 poppler utils（https://poppler.freedesktop.org），但 utils 的 v0.39 在编译时不会给出编译后的二进制文件（只是包装脚本版本）。

有人知道吗：

pdftotext 二进制文件的版本控制如何工作？（与 poplar utils 版本相同？）
任何人都知道旧版本的 pdf 可以在哪里缓存/镜像 - 似乎只能找到最新版本 (3.04)？
支持的想法

还是我错过了什么？

在此先感谢，如果有人有转向本，请不胜感激

下载 poppler-0.39.0.tar.xz, ./configure & make 只提供

brew安装说明

pdftotext xpdf

2016-09-05T08:54:19.877

0 投票

2 回答

451 浏览

php - 如何区分 PHP 中的“文本”PDF 和“图像”PDF？

我最近设置了一个 Linux 服务器，以便能够使用pdftotextXpdf 中的命令将基于文本的 PDF 转换为文本，以及使用gs(Ghostscript) 和tesseract命令的组合将基于图像的 PDF 转换为文本.

当我已经知道 PDF 是基于文本还是基于图像时，这两种解决方案都能很好地工作。但是，为了自动化将许多 PDF 转换为文本的过程，我需要能够判断 PDF 是基于文本的还是基于图像的，以便我知道要在 PDF 上运行哪一组过程。

PHP中有什么方法可以分析PDF并判断它是基于文本还是基于图像，以便我知道是使用Xpdf还是Ghostscript/Tesseract？

php pdf tesseract ghostscript xpdf

2016-09-23T18:52:46.463

0 投票

1 回答

3453 浏览

pdfbox - 如何检查 PDF 页面是否为 PDFBOX、XPDF 的图像（扫描）

PDFBox 提取图像的问题。嗨，我如何检查 pdf 页面是否为图像并通过 PDFBOX 库提取该图像，有一种获取图像的方法，但如果 PDF 页面是图像，则无法获取。有人可以帮我解决这个问题。

关于提取图像的 Xpdf 问题。我尝试通过另一个库 xpdf 提取图像，如果它是图像，它会在页面上进行奇怪的翻转。如果 pdf 包含一个小图像作为对象图像，它给我确定，如果页面被扫描，他我们做翻转。

我想从 PDF 中提取所有图像，如果扫描 PAGE 以将它们作为图像，如果 Page 包含纯文本和图像也从该页面获取图像。

我的意思是从 PDF 中提取所有图像。不仅形成一个页面，而且即使页面是图像，也可以将它们提取为图像，但不要跳过它们我认为 PDFbox 的表现如何。

XPDF 正在做一些事情，但是当他导出扫描的页面时页面上有问题 FLIP(top,right)

我该如何解决这个问题谢谢。

下载文件示例以进行测试

pdfbox xpdf

2016-11-10T15:59:39.147

0 投票

1 回答

205 浏览

batch-file - xpdf批处理文件：如何更改文件名？

我正在使用一个简单的批处理文件调用 xpdf 引擎将 PDF 转换为 TXT 文件。现在，生成的 txt 文件的名称与 PDF 相同，当然扩展名已更改为 .txt。但是，我想在原始文件名后面添加一些文本，我该怎么做？例如，如果有一个名为 test.pdf 的 PDF，则应将其转换为文本并存储在名为 testFULL.txt 的 txt 文件中。

这是我拥有的当前批处理文件： for /R %%s in (*.pdf) do "C:\xpdf\bin32\pdftotext" -raw "%%s"

batch-file pdf xpdf

user7443687

2017-02-14T14:50:49.047

0 投票

0 回答

313 浏览

r - 你如何将pdf文件添加到R中的列表中？

我正在尝试分析 R 中的 pdf 文件。按照 data.library.virginia.edu/reading-pdf-files-into-r-for-text-mining/ 上的说明进行操作。前几个步骤效果很好，但我意识到我必须以某种方式将 PDF 文件连接到 R 中的列表。我想我已经正确地使用了在 Windows 中使用函数 xpdf 的说明。

以下是我迄今为止在 R 中的编码。

这是我在这个论坛上的第一个问题（相当初学者），所以如果有什么不清楚的或者我把这个问题表述错了，我很乐意听到。

r text-mining xpdf

2017-04-23T12:49:15.640

0 投票

1 回答

1584 浏览

pdf - 使用 tm 和 pdftools 时在 'utf8towcs 中输入无效的 'ðŸ“§'

我的工作进展顺利，但我遇到了一些问题，因为我的一些 pdf 文件包含奇怪的符号（“ðŸ“§”）

我已经回顾了较早的讨论，但这些解决方案都没有奏效： R tm package invalid input in 'utf8towcs'

到目前为止，这是我的代码：

结果：.tolower(txt) 中的错误：'utf8towcs' 中的无效输入'ðŸ“§'

任何帮助深表感谢。ps，此代码在其他 pdf 上完美运行。

pdf tm xpdf

2017-05-16T19:55:36.387

0 投票

0 回答

625 浏览

python - 为什么 Xpdf 不能在 Windows 上运行

我正在使用 invoice2data 编写一个程序，该程序需要我使用 Xpdf。我在 Windows 平台上编码。虽然我已经安装了，但我收到错误消息，因为未安装 pdftotext。有人可以帮我解决为什么它不起作用吗？我还更改了环境变量中的路径。还是不行。

下面是我的代码

python pdftotext xpdf

2017-08-24T01:02:18.047

问题标签 [xpdf]

结果：.tolower(txt) 中的错误：'utf8towcs' 中的无效输入'ðŸ“§'

Reference