问题标签 [pdftotext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
416 浏览

python - 子进程没有输出任何东西

我正在尝试使用 Python 运行 pdftotext,但由于某种原因,我的代码无法正常工作。如果我运行以下命令,我希望内容变量将包含 PDF 的内容,但我得到的结果只是一个空字符串。

有人知道我错过了什么吗?

0 投票
2 回答
4078 浏览

php - 如何使用 Zend_Pdf 从 pdf 页面提取文本

任何人都可以帮助从 pdf 的页面中提取文本吗?

我会假设存在一个页面方法,但我找不到任何可以让我提取内容的东西。

示例:$page->getContents(); $page->toString(); $page->extractText();

...帮助!!!!这真让我抓狂!

0 投票
1 回答
1868 浏览

python - 在 python 脚本中调用时,pdftotext 找不到任何要转换的文件

我有一个不断崩溃的python脚本:

错误是:

文件名的绝对路径(我在调试时将其存储在日志文件中)很好;在命令行上,如果我键入pdftotext <pdf_filename_goes_here>它适用于任何所谓的错误文件名。但是当subprocess在 python 中调用 using 时,我不断收到该错误。

到底是怎么回事???

另外,我尝试了 python 解释器,它有效!

更新:为了让大家知道,我也试过:

这也给出了同样的错误。我直接使用/usr/bin/pdftotext test.pdf并且它有效,所以我知道这是 pdftotext 可执行文件的正确路径。还有其他建议吗?

0 投票
1 回答
1264 浏览

ruby-on-rails - Ruby PDF:使用 pdftotext 的工具包

我在我的 Ruby 项目中转换 pdf 文件。我正在为此使用 pdf 工具包 gem。

该文档显示了如何使用 pdftotext pdftotext(file,outfile = nil,&block)

在我的项目中,我正在转换一个没有任何参数的 PDF 文件,并且可以这样做: PDF::Toolkit.pdftotext("file.pdf", "file.txt)

如果我从命令行运行它,我可以通过传递参数 pdftotext -layout file.pdf 来保留布局

使用 PDF::Toolkit 实现此目的的正确语法是什么?

谢谢!

0 投票
7 回答
65027 浏览

linux - 用于 Linux 的 CLI pdf 查看器

嘿,很长一段时间以来,我一直在寻找用于命令行的 pdf 查看器。

由于我喜欢在没有 X 的情况下在 Linux 上工作,并且经常在远程机器上工作,所以我想要一个工具来阅读 pdf。有很多非常好的图形程序(evince、okular、acroread,...)来完成这项工作,所以我认为应该至少有一个像样的文本模式工具。但我什至不知道一个蹩脚的!

目前,我要么只启动 X 来阅读 pdf,要么使用 pdftohtml+lynx。但是,后者不会产生很好的输出,而且大多数文档都是不可读的,特别是如果它们包含数学公式。

谷歌到处都是说不可能或建议使用 pdftohtml 版本的人。

我意识到,这不完全是一个编程问题,但我目前正在考虑启动一个项目来实现这样一个程序,除非已经有一个好的程序。

感谢您的任何建议。

0 投票
1 回答
295 浏览

c# - 使用 pdfcreator 处理 pdf 或其他图像的数据

干草。也许你们可以在我的项目中帮助我。我使用 pdfcreator 作为虚拟打印机将一些图像打印到文件中。可以是pdf 可以是任何类型的图像。但我需要从中提取数据。可以吗?我使用 C#。

0 投票
5 回答
2128 浏览

ruby - 解析大型 PDF 文件的方法

我有一个非常大的 PDF 文件(200,000 KB 或更多),其中包含一系列只包含表格的页面。我想以某种方式使用 Ruby 解析这些信息,并将结果数据导入 MySQL 数据库。

有谁知道将这些数据从 PDF 中提取出来的任何方法?数据按以下方式格式化:

姓名 | 地址 | 现金报告 | 报告年份 | 持有人名称

有时,名称字段会溢出到地址字段中,在这种情况下,剩余的列将显示在下一行。

由于格式不规则,我一直在弄清楚这一点。至少,有人可以为我指出一个 Ruby PDF 库来完成这项任务吗?

更新:我不小心提供了不正确的信息!文件的实际大小为 300 MB,即 300,000 KB。我在上面进行了更改以反映这一点。

0 投票
2 回答
1713 浏览

python - 在传入可选参数的同时在 python 中使用带有 os.tmp 文件的 subprocess.popen

我正在linux中编写一个python程序,其中一部分运行pdftotext可执行文件来转换pdf文本。我目前使用的代码如下。

这很好用,但现在我想使用 -layout 选项运行 pdftotext 可执行文件(保留文档的布局)。我尝试用布局替换“-”,用“pdftotext -layout”替换“pdftotext”等。它都不起作用。他们都给我一个空文本。由于输入是通过临时文件输入的,因此我无法找出参数列表。Popen 上的大多数文档都假定所有参数都是通过参数列表传入的,但在我的例子中,输入是通过临时文件传入的。

任何帮助将不胜感激。

0 投票
2 回答
23786 浏览

utf-8 - 如何使用 pdftotext 以 UTF-8 格式保存文本文件

我正在使用 pdftotext 开源工具将 PDF 转换为文本文件。如何以 UTF-8 格式保存文本文件,以便保留文本文件中的所有重音字符。我正在使用以下命令将其提取内容转换为文本文件,但看不到任何重音字符。

pdftotext -enc UTF-8 book1.pdf book1.txt

请帮我解决这个问题。

提前致谢,

0 投票
3 回答
3491 浏览

python - 当我从本地机器更改为我的虚拟主机时,从 python 脚本调用 pdftotext 不起作用

我写了一个小 Python 脚本来解析/提取 PDF 中的信息。我在本地机器上对其进行了测试,我有 python 2.6.2 和 pdftotext 版本 0.12.4。

我正在尝试在我的虚拟主机服务器(dreamhost)上运行它。它有 python 版本 2.5.2 和 pdftotext 版本 3.02。

但是当我尝试运行脚本时,我在 pdftotext 行收到以下错误(我也用一个简单的丢弃脚本检查了它)“错误:无法打开文件'-'”

请注意,我通过这个函数传递了同一个 PDF 文件,并且它确实可以访问它。在另一个功能中,我可以通过在网络主机上运行的同一脚本通过电子邮件发送 PDF 文档。

我究竟做错了什么?我的本地版本和虚拟主机版本之间 subprocess/python/pdftext 的使用可能有什么区别?我猜我将不得不修改命令,所以任何帮助将不胜感激。

提前致谢。