问题标签 [pdftotext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1394 浏览

command-line - 在 Windows 与 Ubuntu 服务器中使用 pdftotext

在我的 Windows 7 PC 上,命令行输入“pdftotext myfile.pdf”会在与 myfile.pdf 相同的目录中创建一个 .txt 文件。但是,当我在具有相同 myfile.pdf 的 ubuntu-12.04 服务器上尝试相同的命令行输入时,我得到如下错误输出:

等等...

Windows 7 pdf 实用程序包是否与 Linux(来自 Poppler)上可用的不同?否则,相同的调用应该产生相同的结果,不是吗?

0 投票
1 回答
306 浏览

windows-7 - pdftotext 在 Windows 7 PC 和 linux 服务器上输出不同,为什么?

我在两台机器上使用相同版本的 xpdf。但是,在 Windows 7 PC 上创建的 .txt 文件与在 Ubuntu 12.04 linux 服务器上创建的文件不同。Windows 7 .txt 文件格式良好,带有许多换行符,使解析变得相当容易。但是,linux 版本根本不包含任何换行符。Windows 7 上的 pdftotext 是否有我需要在 Linux 上运行时显式调用的选项?

0 投票
1 回答
4613 浏览

centos - Centos 6 64位上的pdftotext?

我有一个 HostGator VPS 服务器,并且希望能够运行(http://www.foolabs.com/xpdf/download.htmlpdftotext的一部分。xpdf

在我的 Mac 上测试后,它运行良好,所以我将它安装在我的 VPS 服务器上。

我按照安装说明进行操作,一切都完美无缺:

  1. 将可执行文件(xpdf、pdftotext 等)复制到 /usr/local/bin。

  2. 将手册页(*.1 和 *.5)复制到 /usr/local/man/man1 和 /usr/local/man/man5。

  3. 将 sample-xpdfrc 文件复制到 /usr/local/etc/xpdfrc

然后我测试了它:

如您所见,它找不到/lib64/libc.so.6. /lib64/libc.so.6但是,是否存在,如下所示:

然后我联系了 HostGator,他们告诉我它无法在我的服务器上运行,因为它找不到/lib64/libc.so.6,因此在 Centos 6 64 位上不可用。

如果这确实是真的,是否有任何替代方法可以pdftotext在此服务器上进行简单快速的转换?是否pdftotext可以针对不同的版本进行编译,或者我使用权限错误地安装了它?

0 投票
3 回答
1984 浏览

pdf - 从 PDF 中提取文本内容

我一直在使用 pdftotext 从 PDF 中提取文本。我也用 Ghostscript 做到了这一点。最近,一家实用程序提供商更改了他们的 PDF,因此这些方法无法提取其中的一部分。具体来说,我错过了到期日和到期总额。当我在阅读器中打开 PDF 时,可以突出显示、复制“缺失”文本并将其粘贴到外部编辑器中。当我在 Acrobat Pro 中打开它并查看内容(查看 -> 显示/隐藏 -> 导航窗格 -> 内容)时,我需要的文本就在那里。如何在不手动复制和粘贴的情况下将其取出?(这不是一个选择,因为我将在数千个 PDF 上执行此操作)?

这是我正在处理的一个例子。我已删除所有敏感数据:

链接到 PDF

编辑:我在发布此内容后注意到,当您点击文件的链接(托管在 Google Drive 上)时,它将允许您选择和复制页面上的大多数文本,但不是我缺少的内容。下载文件时,您可以在 PDF 阅读器中选择缺失的文本。

0 投票
1 回答
312 浏览

python - 如何处理python中texttopdf引发的错误

我正在读取系统中存在的所有 pdf 文件,并将其从命令行实用程序“pdftotext”写入文本文件“output.txt”,但是在读取结构不正确的文件(如图像的 pdf 文件和许多其他文件)时,它会引发一些错误,例如

我想要的是当它遇到第一个错误时,只需移动到下一个文件而不是读取同一个文件。我使用的是 Python 2.7。我的代码就像

这是从“pdftotext”读取 pdf 文件的示例代码。我想捕捉错误,以便继续阅读下一个 pdf。

我看过一篇关于这个的帖子。谢谢

0 投票
3 回答
20728 浏览

python - 使用 PdfMiner 和 PyPDF2 合并列提取文本

我正在尝试使用 pdfMiner 解析 pdf 文件文本,但提取的文本被合并。我正在使用以下链接中的 pdf 文件。

PDF文件

我擅长任何类型的输出(文件/字符串)。这是将提取的文本作为字符串返回的代码,但由于某种原因,列被合并了。

我也尝试过 PyPdf2,但遇到了同样的问题。这是 PyPDF2 的示例代码

我也尝试过pdf2txt.py但无法获得格式化的输出。

0 投票
3 回答
962 浏览

c# - 无法读取pdf文件

我正在尝试构建一个可以读取 PDF 文件的应用程序。我使用本指南:

http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NET

但不明白“文件”的含义是您计算机的整个网址。因为当我尝试它时,它说它的格式错误。

错误讯息:

错误 1 ​​方法“ExtractText”没有重载需要 1 个参数

0 投票
1 回答
658 浏览

poppler - 如何让 poppler 在非标准目录中使用额外的编码数据?

我正在测试 pdftotext 作为poppler的一部分。它预装在我正在使用的共享主机上。我想添加包含语言包的 poppler 编码数据,以帮助解决诸如"Missing language pack for 'Adobe-GB1' mapping".

由于我似乎没有权限在我的共享主机 ( /usr/share/poppler) 上的推荐目录中安装编码数据,我如何告诉 poppler 我将数据放在哪里以便使用?

pdftotext 手册页似乎没有描述任何指向数据包的标志。

pdftotext 位于/usr/bin/pdftotext

0 投票
2 回答
354 浏览

bash - 搜索多个pdf文件的内容并返回pdf的文件名和匹配的内容?

我试过这个:

以这种方式echo "$PDF仅打印 .pdf 文件中的一些文本,在该文件中找到了我的单词“palindrom”,但我也想知道他在其中找到该单词的 .pdf 文件名。

里面有/"$DIRECTORY"/很多文件夹,.pdf 和 .txt 文件,所以我只需要返回文本转换与我的单词“palindrom”匹配的 .pdf 文件

谢谢

0 投票
1 回答
1813 浏览

c# - PDFBox 0.7.3 将pdf转换为文本

我想将 pdf 文件转换为文本文件,但某些 pdf 文件不适用于 pdfbox dll 作为比 Acrobat 5.x 更新的 acrobat 版本

请告诉我我是做什么的?