问题标签 [pdftotext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
301 浏览

c# - PDFParser 错误信息

错误 1

'org.pdfbox.pdfparser.PDFParser.PDFParser(java.io.InputStream)' 的最佳重载方法匹配有一些无效参数 H:\pdf_ver3.cs 129 51 PDF-to-Text Converter

代码:

0 投票
2 回答
2248 浏览

python - 是否可以在 Python 中提取带有空格的 pdf?

在创建了使用 java 和 pdfbox 提取 PDF 的工具后,我一直在尝试使用 Python 提取 pdf。

虽然 Java 实现对于同一个 pdf 是成功的,但我一直在努力在 python 中做同样的事情,因为 pdfminer 和 pypdf 和 pypdf2 都无法使用空格逐行提取 pdf。特别是,pdfminer pdf2txt 出于某种奇怪的原因将 pdf 分成 3 列,然后逐行读取。

我得到的最接近的是使用堆栈溢出问题的实现,不幸的是它没有保留空格。鉴于我有两个都有数字的变量,我无法以文本形式恢复它们。

鉴于此,是否可以在 Python 中逐行提取带有空格的 pdf?

0 投票
1 回答
1477 浏览

linux - 如何在Linux中使用pdftext在多个pdf文件中搜索一个单词

我的文件夹中有一些 pdf 文件,通过使用以下命令,我可以获得包含匹配单词的文件名和行。

但这仅适用于单个 pdf 文件,我想在其内容中包含搜索词的文件夹中获取所有文件名。我不想显示匹配的行,请建议我。谢谢

0 投票
1 回答
2490 浏览

java - 特殊字符未正确从 pdf 转换为文本

我有一组包含中欧字符的 pdf 文件,例如 č、Ď、Š 等。我想将它们转换为文本,我已经尝试pdftotextPDFBox通过 Apache Tika 但总是其中一些没有正确转换。

奇怪的是,同一文本中的相同字符在某些地方被正确转换,而在另一些地方则不正确!一个例子是这个pdf

在 pdftotext 的情况下,我使用这些选项:

我的 Tika 代码如下所示:

编辑:忘了提到我在从 Acrobat Reader XI 转换为文本时也面临同样的问题。

0 投票
1 回答
375 浏览

linux - Inaccurate pdf to text conversion

I have tried almost every pdf to text converter available on Linux, but some parts of text are corrupted/inaccurate. Like some characters are replaced with others, some words are missing from text which are present in the pdf. For some words converted text contains semicolons etc.

I also tried aspell so that i can correct the words, but aspell remains silent on some words.

NOTE: The pdf contains swedish language text.

So, Is there any solution to fix this inaccuracy in pdf to text conversion?

0 投票
1 回答
732 浏览

python - pypdf 用于 pdf 列表

我已经让 pypdf 对单个 pdf 文件工作得很好,但我似乎无法让它对大量文件工作,或者在多个 pdf 的 for 循环中工作,而不会因为字符串不可调用而失败。有什么想法可以用作解决方法吗?

我正在使用一个列表,但我得到了完全相同的错误,我认为这没什么大不了的,但现在它正在成为一个。我知道我能够在 arcpy 中解决类似的问题,但这还不是很接近

0 投票
1 回答
3537 浏览

python - PDFMiner - 获取文本行

我正在使用此 SO 答案中提供的代码片段,使用PDFMiner Python 库将 PDF 文件转换为文本。问题是 PDF 是三列格式,我需要阅读每一行。但是,我得到的文本是无序的:有时混合第一列和第二列,有时混合第三列......由于文本不遵循任何逻辑顺序,我无法解析每一行。那么,有没有办法使用 PDFMiner 获取 PDF 文件的每一行?

编辑:

PDFMiner 带有一个命令行工具,pdf2txt.py用于将 PDF 转换为文本。使用它并设置0.05为字边距,我可以获得更好的格式化文本,但无法达到目标。

0 投票
1 回答
413 浏览

pdftotext - 编译 pdftotext.cc 时出错

我正在尝试编译以下代码:

https://github.com/zdanozdan/pdftotext/wiki

但是我的ubuntu(12.04)需要太多的依赖,所以我不知道如何实现成功编译。

编译行:

gcc -o pdftotext pdftotext.cc

第一个错误是:

pdftotext.cc:9:19:致命错误:aconf.h:没有此类文件或目录编译终止。

(对不起我的新手问题:)

0 投票
0 回答
2430 浏览

java - 如何使用java从扫描的pdf文件中提取文本

我已经手动扫描了一些硬拷贝文件并存储到 pdf 文件(软拷贝)中。现在这些 pdf 文件是我的输入,所以我需要从这些 pdf 文件中提取文本。我尝试了 tika,pdfbox,itext,tess4j 没有任何东西可以为我的文件提供至少 50% 的准确度(主要是获取垃圾数据)(获取从互联网下载的其他 pdf 的准确文本),你能建议我解决这个问题吗?

谢谢

0 投票
2 回答
5274 浏览

pdftotext - 从扫描的 pdf 中读取数据

我有被扫描的 pdf,无法转换为文本,甚至无法在文本编辑器中复制和粘贴为文本。

有没有办法以编程方式或手动将此类扫描的 PDF 文件转换为 TEXT 格式?

谢谢