问题标签 [pdftotext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 子进程没有输出任何东西
我正在尝试使用 Python 运行 pdftotext,但由于某种原因,我的代码无法正常工作。如果我运行以下命令,我希望内容变量将包含 PDF 的内容,但我得到的结果只是一个空字符串。
有人知道我错过了什么吗?
php - 如何使用 Zend_Pdf 从 pdf 页面提取文本
任何人都可以帮助从 pdf 的页面中提取文本吗?
我会假设存在一个页面方法,但我找不到任何可以让我提取内容的东西。
示例:$page->getContents(); $page->toString(); $page->extractText();
...帮助!!!!这真让我抓狂!
python - 在 python 脚本中调用时,pdftotext 找不到任何要转换的文件
我有一个不断崩溃的python脚本:
错误是:
文件名的绝对路径(我在调试时将其存储在日志文件中)很好;在命令行上,如果我键入pdftotext <pdf_filename_goes_here>
它适用于任何所谓的错误文件名。但是当subprocess
在 python 中调用 using 时,我不断收到该错误。
到底是怎么回事???
另外,我尝试了 python 解释器,它有效!
更新:为了让大家知道,我也试过:
这也给出了同样的错误。我直接使用/usr/bin/pdftotext test.pdf
并且它有效,所以我知道这是 pdftotext 可执行文件的正确路径。还有其他建议吗?
ruby-on-rails - Ruby PDF:使用 pdftotext 的工具包
我在我的 Ruby 项目中转换 pdf 文件。我正在为此使用 pdf 工具包 gem。
该文档显示了如何使用 pdftotext pdftotext(file,outfile = nil,&block)
在我的项目中,我正在转换一个没有任何参数的 PDF 文件,并且可以这样做: PDF::Toolkit.pdftotext("file.pdf", "file.txt)
如果我从命令行运行它,我可以通过传递参数 pdftotext -layout file.pdf 来保留布局
使用 PDF::Toolkit 实现此目的的正确语法是什么?
谢谢!
linux - 用于 Linux 的 CLI pdf 查看器
嘿,很长一段时间以来,我一直在寻找用于命令行的 pdf 查看器。
由于我喜欢在没有 X 的情况下在 Linux 上工作,并且经常在远程机器上工作,所以我想要一个工具来阅读 pdf。有很多非常好的图形程序(evince、okular、acroread,...)来完成这项工作,所以我认为应该至少有一个像样的文本模式工具。但我什至不知道一个蹩脚的!
目前,我要么只启动 X 来阅读 pdf,要么使用 pdftohtml+lynx。但是,后者不会产生很好的输出,而且大多数文档都是不可读的,特别是如果它们包含数学公式。
谷歌到处都是说不可能或建议使用 pdftohtml 版本的人。
我意识到,这不完全是一个编程问题,但我目前正在考虑启动一个项目来实现这样一个程序,除非已经有一个好的程序。
感谢您的任何建议。
c# - 使用 pdfcreator 处理 pdf 或其他图像的数据
干草。也许你们可以在我的项目中帮助我。我使用 pdfcreator 作为虚拟打印机将一些图像打印到文件中。可以是pdf 可以是任何类型的图像。但我需要从中提取数据。可以吗?我使用 C#。
ruby - 解析大型 PDF 文件的方法
我有一个非常大的 PDF 文件(200,000 KB 或更多),其中包含一系列只包含表格的页面。我想以某种方式使用 Ruby 解析这些信息,并将结果数据导入 MySQL 数据库。
有谁知道将这些数据从 PDF 中提取出来的任何方法?数据按以下方式格式化:
姓名 | 地址 | 现金报告 | 报告年份 | 持有人名称
有时,名称字段会溢出到地址字段中,在这种情况下,剩余的列将显示在下一行。
由于格式不规则,我一直在弄清楚这一点。至少,有人可以为我指出一个 Ruby PDF 库来完成这项任务吗?
更新:我不小心提供了不正确的信息!文件的实际大小为 300 MB,即 300,000 KB。我在上面进行了更改以反映这一点。
python - 在传入可选参数的同时在 python 中使用带有 os.tmp 文件的 subprocess.popen
我正在linux中编写一个python程序,其中一部分运行pdftotext可执行文件来转换pdf文本。我目前使用的代码如下。
这很好用,但现在我想使用 -layout 选项运行 pdftotext 可执行文件(保留文档的布局)。我尝试用布局替换“-”,用“pdftotext -layout”替换“pdftotext”等。它都不起作用。他们都给我一个空文本。由于输入是通过临时文件输入的,因此我无法找出参数列表。Popen 上的大多数文档都假定所有参数都是通过参数列表传入的,但在我的例子中,输入是通过临时文件传入的。
任何帮助将不胜感激。
utf-8 - 如何使用 pdftotext 以 UTF-8 格式保存文本文件
我正在使用 pdftotext 开源工具将 PDF 转换为文本文件。如何以 UTF-8 格式保存文本文件,以便保留文本文件中的所有重音字符。我正在使用以下命令将其提取内容转换为文本文件,但看不到任何重音字符。
pdftotext -enc UTF-8 book1.pdf book1.txt
请帮我解决这个问题。
提前致谢,
python - 当我从本地机器更改为我的虚拟主机时,从 python 脚本调用 pdftotext 不起作用
我写了一个小 Python 脚本来解析/提取 PDF 中的信息。我在本地机器上对其进行了测试,我有 python 2.6.2 和 pdftotext 版本 0.12.4。
我正在尝试在我的虚拟主机服务器(dreamhost)上运行它。它有 python 版本 2.5.2 和 pdftotext 版本 3.02。
但是当我尝试运行脚本时,我在 pdftotext 行收到以下错误(我也用一个简单的丢弃脚本检查了它)“错误:无法打开文件'-'”
请注意,我通过这个函数传递了同一个 PDF 文件,并且它确实可以访问它。在另一个功能中,我可以通过在网络主机上运行的同一脚本通过电子邮件发送 PDF 文档。
我究竟做错了什么?我的本地版本和虚拟主机版本之间 subprocess/python/pdftext 的使用可能有什么区别?我猜我将不得不修改命令,所以任何帮助将不胜感激。
提前致谢。