问题标签 [pdftotext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
764 浏览

pdf - 在 Windows 上使用“pdftotext”的问题

我正在尝试使用以下命令从 PDF 文件中获取文本:

问题是如果我的 PDF 文件-在正文中包含任何破折号 ( ),则生成的文本文件将没有它们(使用该-layout选项将得到相同的结果)。

例子:

  • PDF 文件包含:-5:00 Eastern Standard Time

  • 生成的 TXT 文件将包含:5:00 Eastern Standard Time

有没有人遇到过同样的问题?

0 投票
1 回答
753 浏览

pdftotext - 在 Mac OSX Mountain Lion 上使用 fink 安装 poppler 似乎没有安装 pdftotext 实用程序

我想在 MacOSX 上安装 pdftotext。与其他软件包安装程序相比,我更喜欢 fink。我用了:

认为 pdftotext 可能包含在内(就像使用 brew install poppler 时一样),但似乎没有。是否应该安装 pdftotext,如果是,安装在哪里?

我现在已经走上了安装 Homebrew 的道路,但 Fink 和 Homebrew 似乎并不太愉快地共存。

0 投票
0 回答
239 浏览

python - 有没有办法处理python中的希腊字符?

有没有办法让这个代码在 python 中工作?

我有一个存储我所有 pdf 文件的路径。每个文件名都有希腊字符,例如 (ΤΕΣΤ_1_2014)。当我运行上面的代码时,我收到这样的错误

字符串的编码和解码有什么区别?当我创建txt文件时,我在最后一行都使用了它们,但它们都不起作用请帮助!

0 投票
2 回答
9411 浏览

pdftotext - Remove a page number, header and footer from pdf file

I want to parse a pdf file, for that I am using pdftotext utility which converts pdf file into text file, now I want to remove a page number, header and footer from text file.

I am converting a pdf file using following syntax:

Can anyone help me on this?

0 投票
1 回答
230 浏览

pdf - 如何使用 grep 搜索我的 PDF?

我遵循了这个线程的想法,但它不起作用。 https://unix.stackexchange.com/questions/6704/how-can-i-grep-in-pdf-files

我确信“过滤器”在这本书中至少出现了 100 次。

有任何想法吗?

0 投票
0 回答
1740 浏览

apache - Extract text with style and format using TIKA from a PDF

I have a pdf file which contains section headings and its details, using Apache TIKA how do I extract text with its style and format?

0 投票
1 回答
1632 浏览

perl - 如何使用 CAM::PDF 提取所有页面?

使用上面的代码,我可以将 pdf 数据提取到文本文件中,但我只能得到一页。我想在我的 pdf 中获取每一页。

我知道它在包含的行中

我不确定如何更改它。我什至尝试过(1..200),它只给了我第一页。有人熟悉使用 CAM::PDF 吗?

0 投票
1 回答
922 浏览

python - 从扫描的pdf中提取文本

我的问题是我有一堆 PDF 文件,我想将它们转换为文本文件。其中一些是纯PDF,而另一些则扫描了里面的页面。我正在用 python 编写一个程序,所以我使用 pdftotext 将它们转换为 TXT。

我正在使用下面的命令

我想问的是是否有办法在转换之前检查扫描的页面,以便我可以使用带有 pdftotext 的 ghostscript 命令来操作它们。现在我有一个阈值来检查 .txt 文件的大小,如果它低于这个阈值,我正在使用 ghostscript 命令来操作它们。

问题在于,即使使用 pdftotext 扫描 90 页中的 50 或 60 页的大型文件,文件的大小也始终高于阈值。

0 投票
2 回答
801 浏览

linux - 如何将 xargs 与 pdftotext 转换器耦合以在多个 pdf 文件中进行搜索

我正在制作一个脚本,它应该在目录中的所有 pdf 文件中进行搜索。我发现了一个转换后的名为“pdftotext”的文件,它使我能够在 pef 文件上使用 grep,但我只能用一个文件运行它。当我想在目录中存在的所有文件上运行它时,它会失败。有什么建议么 ?

这有效:对于单个文件

这失败了:用于搜索 pdf 文件并转换为文本和 greping

0 投票
1 回答
868 浏览

java - 命令从 exec() 失败,但在终端上工作

我正在尝试使用 Java 将 pdf 转换为 txt。我尝试过 Apache PDFBox,但由于某些奇怪的原因,它不能转换整个文档。出于这个原因,我决定通过执行 Runtime.getRuntime().exec() 调用来使用 pdftotext。问题是,虽然我的终端 pdftotext 完美运行,但 exec() 调用给了我错误代码 1(有时甚至是 99)。这是电话:

这是代码

这是 PDF2TXT_COMMAND 字符串定义:

我知道通常这些类型的错误是由权限设置引起的。因此,这里是 Hello 文件夹中 ls -l 命令的输出:

另外,请注意创建进程的用户是 koldar,它位于组 www-data 本身中。感谢您的时间和耐心!