“pdftotext”的相关标签问题

0 投票

1 回答

416 浏览

python - 子进程没有输出任何东西

我正在尝试使用 Python 运行 pdftotext，但由于某种原因，我的代码无法正常工作。如果我运行以下命令，我希望内容变量将包含 PDF 的内容，但我得到的结果只是一个空字符串。

有人知道我错过了什么吗？

2010-03-18T18:46:42.820

0 投票

2 回答

4078 浏览

php - 如何使用 Zend_Pdf 从 pdf 页面提取文本

任何人都可以帮助从 pdf 的页面中提取文本吗？

我会假设存在一个页面方法，但我找不到任何可以让我提取内容的东西。

示例：$page->getContents(); $page->toString(); $page->extractText();

...帮助！！！！这真让我抓狂！

php zend-framework zend-pdf pdftotext

2010-03-22T15:41:21.770

0 投票

1 回答

1868 浏览

python - 在 python 脚本中调用时，pdftotext 找不到任何要转换的文件

我有一个不断崩溃的python脚本：

错误是：

文件名的绝对路径（我在调试时将其存储在日志文件中）很好；在命令行上，如果我键入pdftotext <pdf_filename_goes_here>它适用于任何所谓的错误文件名。但是当subprocess在 python 中调用 using 时，我不断收到该错误。

到底是怎么回事？？？

另外，我尝试了 python 解释器，它有效！

更新：为了让大家知道，我也试过：

这也给出了同样的错误。我直接使用/usr/bin/pdftotext test.pdf并且它有效，所以我知道这是 pdftotext 可执行文件的正确路径。还有其他建议吗？

python pdftotext

2010-04-18T01:56:11.887

0 投票

1 回答

1264 浏览

ruby-on-rails - Ruby PDF：使用 pdftotext 的工具包

我在我的 Ruby 项目中转换 pdf 文件。我正在为此使用 pdf 工具包 gem。

该文档显示了如何使用 pdftotext pdftotext(file,outfile = nil,&block)

在我的项目中，我正在转换一个没有任何参数的 PDF 文件，并且可以这样做： PDF::Toolkit.pdftotext("file.pdf", "file.txt)

如果我从命令行运行它，我可以通过传递参数 pdftotext -layout file.pdf 来保留布局

使用 PDF::Toolkit 实现此目的的正确语法是什么？

谢谢！

ruby-on-rails ruby pdftotext

2010-08-19T23:10:49.337

0 投票

7 回答

65027 浏览

linux - 用于 Linux 的 CLI pdf 查看器

嘿，很长一段时间以来，我一直在寻找用于命令行的 pdf 查看器。

由于我喜欢在没有 X 的情况下在 Linux 上工作，并且经常在远程机器上工作，所以我想要一个工具来阅读 pdf。有很多非常好的图形程序（evince、okular、acroread，...）来完成这项工作，所以我认为应该至少有一个像样的文本模式工具。但我什至不知道一个蹩脚的！

目前，我要么只启动 X 来阅读 pdf，要么使用 pdftohtml+lynx。但是，后者不会产生很好的输出，而且大多数文档都是不可读的，特别是如果它们包含数学公式。

谷歌到处都是说不可能或建议使用 pdftohtml 版本的人。

我意识到，这不完全是一个编程问题，但我目前正在考虑启动一个项目来实现这样一个程序，除非已经有一个好的程序。

感谢您的任何建议。

linux pdf command-line ncurses pdftotext

2010-08-25T22:03:47.710

0 投票

1 回答

295 浏览

c# - 使用 pdfcreator 处理 pdf 或其他图像的数据

干草。也许你们可以在我的项目中帮助我。我使用 pdfcreator 作为虚拟打印机将一些图像打印到文件中。可以是pdf 可以是任何类型的图像。但我需要从中提取数据。可以吗？我使用 C#。

c#pdf ghostscript pdftotext xpdf

2010-09-07T18:55:18.173

0 投票

5 回答

2128 浏览

ruby - 解析大型 PDF 文件的方法

我有一个非常大的 PDF 文件（200,000 KB 或更多），其中包含一系列只包含表格的页面。我想以某种方式使用 Ruby 解析这些信息，并将结果数据导入 MySQL 数据库。

有谁知道将这些数据从 PDF 中提取出来的任何方法？数据按以下方式格式化：

姓名 | 地址 | 现金报告 | 报告年份 | 持有人名称

有时，名称字段会溢出到地址字段中，在这种情况下，剩余的列将显示在下一行。

由于格式不规则，我一直在弄清楚这一点。至少，有人可以为我指出一个 Ruby PDF 库来完成这项任务吗？

更新：我不小心提供了不正确的信息！文件的实际大小为 300 MB，即 300,000 KB。我在上面进行了更改以反映这一点。

ruby database pdf ghostscript pdftotext

2010-09-14T20:16:35.457

0 投票

2 回答

1713 浏览

python - 在传入可选参数的同时在 python 中使用带有 os.tmp 文件的 subprocess.popen

我正在linux中编写一个python程序，其中一部分运行pdftotext可执行文件来转换pdf文本。我目前使用的代码如下。

这很好用，但现在我想使用 -layout 选项运行 pdftotext 可执行文件（保留文档的布局）。我尝试用布局替换“-”，用“pdftotext -layout”替换“pdftotext”等。它都不起作用。他们都给我一个空文本。由于输入是通过临时文件输入的，因此我无法找出参数列表。Popen 上的大多数文档都假定所有参数都是通过参数列表传入的，但在我的例子中，输入是通过临时文件传入的。

任何帮助将不胜感激。

python linux pdftotext

2010-10-09T09:42:08.897

0 投票

2 回答

23786 浏览

utf-8 - 如何使用 pdftotext 以 UTF-8 格式保存文本文件

我正在使用 pdftotext 开源工具将 PDF 转换为文本文件。如何以 UTF-8 格式保存文本文件，以便保留文本文件中的所有重音字符。我正在使用以下命令将其提取内容转换为文本文件，但看不到任何重音字符。

pdftotext -enc UTF-8 book1.pdf book1.txt

请帮我解决这个问题。

提前致谢，

utf-8 pdftotext

2010-10-28T05:07:55.293

0 投票

3 回答

3491 浏览

python - 当我从本地机器更改为我的虚拟主机时，从 python 脚本调用 pdftotext 不起作用

我写了一个小 Python 脚本来解析/提取 PDF 中的信息。我在本地机器上对其进行了测试，我有 python 2.6.2 和 pdftotext 版本 0.12.4。

我正在尝试在我的虚拟主机服务器（dreamhost）上运行它。它有 python 版本 2.5.2 和 pdftotext 版本 3.02。

但是当我尝试运行脚本时，我在 pdftotext 行收到以下错误（我也用一个简单的丢弃脚本检查了它）“错误：无法打开文件'-'”

请注意，我通过这个函数传递了同一个 PDF 文件，并且它确实可以访问它。在另一个功能中，我可以通过在网络主机上运行的同一脚本通过电子邮件发送 PDF 文档。

我究竟做错了什么？我的本地版本和虚拟主机版本之间 subprocess/python/pdftext 的使用可能有什么区别？我猜我将不得不修改命令，所以任何帮助将不胜感激。

提前致谢。

python scripting subprocess dreamhost pdftotext

2011-01-29T13:29:54.090

问题标签 [pdftotext]

Reference