问题标签 [pdftotext]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

342 问题

0 投票

0 回答

764 浏览

pdf - 在 Windows 上使用“pdftotext”的问题

我正在尝试使用以下命令从 PDF 文件中获取文本：

问题是如果我的 PDF 文件-在正文中包含任何破折号 ( )，则生成的文本文件将没有它们（使用该-layout选项将得到相同的结果）。

例子：

PDF 文件包含：-5:00 Eastern Standard Time
生成的 TXT 文件将包含：5:00 Eastern Standard Time

有没有人遇到过同样的问题？

pdf pdftotext

2014-10-13T22:38:23.783

0 投票

1 回答

753 浏览

pdftotext - 在 Mac OSX Mountain Lion 上使用 fink 安装 poppler 似乎没有安装 pdftotext 实用程序

我想在 MacOSX 上安装 pdftotext。与其他软件包安装程序相比，我更喜欢 fink。我用了：

认为 pdftotext 可能包含在内（就像使用 brew install poppler 时一样），但似乎没有。是否应该安装 pdftotext，如果是，安装在哪里？

我现在已经走上了安装 Homebrew 的道路，但 Fink 和 Homebrew 似乎并不太愉快地共存。

2014-12-01T17:14:48.570

0 投票

0 回答

239 浏览

python - 有没有办法处理python中的希腊字符？

有没有办法让这个代码在 python 中工作？

我有一个存储我所有 pdf 文件的路径。每个文件名都有希腊字符，例如 (ΤΕΣΤ_1_2014)。当我运行上面的代码时，我收到这样的错误

字符串的编码和解码有什么区别？当我创建txt文件时，我在最后一行都使用了它们，但它们都不起作用请帮助！

python pdftotext

2014-12-04T20:53:12.953

0 投票

2 回答

9411 浏览

pdftotext - Remove a page number, header and footer from pdf file

I want to parse a pdf file, for that I am using pdftotext utility which converts pdf file into text file, now I want to remove a page number, header and footer from text file.

I am converting a pdf file using following syntax:

Can anyone help me on this?

pdftotext

2015-01-12T11:44:11.230

0 投票

1 回答

230 浏览

pdf - 如何使用 grep 搜索我的 PDF？

我遵循了这个线程的想法，但它不起作用。 https://unix.stackexchange.com/questions/6704/how-can-i-grep-in-pdf-files

我确信“过滤器”在这本书中至少出现了 100 次。

有任何想法吗？

pdf grep pdftotext

2015-01-13T16:48:02.803

0 投票

0 回答

1740 浏览

apache - Extract text with style and format using TIKA from a PDF

I have a pdf file which contains section headings and its details, using Apache TIKA how do I extract text with its style and format?

apache apache-tika pdftotext

2015-02-16T14:10:17.430

0 投票

1 回答

1632 浏览

perl - 如何使用 CAM::PDF 提取所有页面？

使用上面的代码，我可以将 pdf 数据提取到文本文件中，但我只能得到一页。我想在我的 pdf 中获取每一页。

我知道它在包含的行中

我不确定如何更改它。我什至尝试过（1..200），它只给了我第一页。有人熟悉使用 CAM::PDF 吗？

perl pdftotext pdf-parsing

2015-02-18T22:59:08.333

0 投票

1 回答

922 浏览

python - 从扫描的pdf中提取文本

我的问题是我有一堆 PDF 文件，我想将它们转换为文本文件。其中一些是纯PDF，而另一些则扫描了里面的页面。我正在用 python 编写一个程序，所以我使用 pdftotext 将它们转换为 TXT。

我正在使用下面的命令

我想问的是是否有办法在转换之前检查扫描的页面，以便我可以使用带有 pdftotext 的 ghostscript 命令来操作它们。现在我有一个阈值来检查 .txt 文件的大小，如果它低于这个阈值，我正在使用 ghostscript 命令来操作它们。

问题在于，即使使用 pdftotext 扫描 90 页中的 50 或 60 页的大型文件，文件的大小也始终高于阈值。

python pdf ghostscript pdftotext

2015-03-13T10:06:45.243

0 投票

2 回答

801 浏览

linux - 如何将 xargs 与 pdftotext 转换器耦合以在多个 pdf 文件中进行搜索

我正在制作一个脚本，它应该在目录中的所有 pdf 文件中进行搜索。我发现了一个转换后的名为“pdftotext”的文件，它使我能够在 pef 文件上使用 grep，但我只能用一个文件运行它。当我想在目录中存在的所有文件上运行它时，它会失败。有什么建议么？

这有效：对于单个文件

这失败了：用于搜索 pdf 文件并转换为文本和 greping

linux unix scripting xargs pdftotext

user2809888

2015-03-24T12:05:02.293

0 投票

1 回答

868 浏览

java - 命令从 exec() 失败，但在终端上工作

我正在尝试使用 Java 将 pdf 转换为 txt。我尝试过 Apache PDFBox，但由于某些奇怪的原因，它不能转换整个文档。出于这个原因，我决定通过执行 Runtime.getRuntime().exec() 调用来使用 pdftotext。问题是，虽然我的终端 pdftotext 完美运行，但 exec() 调用给了我错误代码 1（有时甚至是 99）。这是电话：

这是代码

这是 PDF2TXT_COMMAND 字符串定义：

我知道通常这些类型的错误是由权限设置引起的。因此，这里是 Hello 文件夹中 ls -l 命令的输出：

另外，请注意创建进程的用户是 koldar，它位于组 www-data 本身中。感谢您的时间和耐心！

java linux runtime.exec pdftotext

2015-04-10T08:04:44.247

1 2 3 4 5 6 7 8 9 10

问题标签 [pdftotext]

Reference