问题标签 [pdftotext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf - 在 Windows 上使用“pdftotext”的问题
我正在尝试使用以下命令从 PDF 文件中获取文本:
问题是如果我的 PDF 文件-
在正文中包含任何破折号 ( ),则生成的文本文件将没有它们(使用该-layout
选项将得到相同的结果)。
例子:
PDF 文件包含:
-5:00 Eastern Standard Time
生成的 TXT 文件将包含:
5:00 Eastern Standard Time
有没有人遇到过同样的问题?
pdftotext - 在 Mac OSX Mountain Lion 上使用 fink 安装 poppler 似乎没有安装 pdftotext 实用程序
我想在 MacOSX 上安装 pdftotext。与其他软件包安装程序相比,我更喜欢 fink。我用了:
认为 pdftotext 可能包含在内(就像使用 brew install poppler 时一样),但似乎没有。是否应该安装 pdftotext,如果是,安装在哪里?
我现在已经走上了安装 Homebrew 的道路,但 Fink 和 Homebrew 似乎并不太愉快地共存。
python - 有没有办法处理python中的希腊字符?
有没有办法让这个代码在 python 中工作?
我有一个存储我所有 pdf 文件的路径。每个文件名都有希腊字符,例如 (ΤΕΣΤ_1_2014)。当我运行上面的代码时,我收到这样的错误
字符串的编码和解码有什么区别?当我创建txt文件时,我在最后一行都使用了它们,但它们都不起作用请帮助!
pdftotext - Remove a page number, header and footer from pdf file
I want to parse a pdf file, for that I am using pdftotext
utility which converts pdf file into text file, now I want to remove a page number, header and footer from text file.
I am converting a pdf file using following syntax:
Can anyone help me on this?
pdf - 如何使用 grep 搜索我的 PDF?
我遵循了这个线程的想法,但它不起作用。 https://unix.stackexchange.com/questions/6704/how-can-i-grep-in-pdf-files
我确信“过滤器”在这本书中至少出现了 100 次。
有任何想法吗?
apache - Extract text with style and format using TIKA from a PDF
I have a pdf file which contains section headings and its details, using Apache TIKA how do I extract text with its style and format?
perl - 如何使用 CAM::PDF 提取所有页面?
使用上面的代码,我可以将 pdf 数据提取到文本文件中,但我只能得到一页。我想在我的 pdf 中获取每一页。
我知道它在包含的行中
我不确定如何更改它。我什至尝试过(1..200),它只给了我第一页。有人熟悉使用 CAM::PDF 吗?
python - 从扫描的pdf中提取文本
我的问题是我有一堆 PDF 文件,我想将它们转换为文本文件。其中一些是纯PDF,而另一些则扫描了里面的页面。我正在用 python 编写一个程序,所以我使用 pdftotext 将它们转换为 TXT。
我正在使用下面的命令
我想问的是是否有办法在转换之前检查扫描的页面,以便我可以使用带有 pdftotext 的 ghostscript 命令来操作它们。现在我有一个阈值来检查 .txt 文件的大小,如果它低于这个阈值,我正在使用 ghostscript 命令来操作它们。
问题在于,即使使用 pdftotext 扫描 90 页中的 50 或 60 页的大型文件,文件的大小也始终高于阈值。
linux - 如何将 xargs 与 pdftotext 转换器耦合以在多个 pdf 文件中进行搜索
我正在制作一个脚本,它应该在目录中的所有 pdf 文件中进行搜索。我发现了一个转换后的名为“pdftotext”的文件,它使我能够在 pef 文件上使用 grep,但我只能用一个文件运行它。当我想在目录中存在的所有文件上运行它时,它会失败。有什么建议么 ?
这有效:对于单个文件
这失败了:用于搜索 pdf 文件并转换为文本和 greping
java - 命令从 exec() 失败,但在终端上工作
我正在尝试使用 Java 将 pdf 转换为 txt。我尝试过 Apache PDFBox,但由于某些奇怪的原因,它不能转换整个文档。出于这个原因,我决定通过执行 Runtime.getRuntime().exec() 调用来使用 pdftotext。问题是,虽然我的终端 pdftotext 完美运行,但 exec() 调用给了我错误代码 1(有时甚至是 99)。这是电话:
这是代码
这是 PDF2TXT_COMMAND 字符串定义:
我知道通常这些类型的错误是由权限设置引起的。因此,这里是 Hello 文件夹中 ls -l 命令的输出:
另外,请注意创建进程的用户是 koldar,它位于组 www-data 本身中。感谢您的时间和耐心!