问题标签 [pdftotext]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

342 问题

0 投票

1 回答

301 浏览

c# - PDFParser 错误信息

错误 1

'org.pdfbox.pdfparser.PDFParser.PDFParser(java.io.InputStream)' 的最佳重载方法匹配有一些无效参数 H:\pdf_ver3.cs 129 51 PDF-to-Text Converter

代码：

c#pdfbox pdftotext

2013-05-06T10:38:58.373

0 投票

2 回答

2248 浏览

python - 是否可以在 Python 中提取带有空格的 pdf？

在创建了使用 java 和 pdfbox 提取 PDF 的工具后，我一直在尝试使用 Python 提取 pdf。

虽然 Java 实现对于同一个 pdf 是成功的，但我一直在努力在 python 中做同样的事情，因为 pdfminer 和 pypdf 和 pypdf2 都无法使用空格逐行提取 pdf。特别是，pdfminer pdf2txt 出于某种奇怪的原因将 pdf 分成 3 列，然后逐行读取。

我得到的最接近的是使用堆栈溢出问题的实现，不幸的是它没有保留空格。鉴于我有两个都有数字的变量，我无法以文本形式恢复它们。

鉴于此，是否可以在 Python 中逐行提取带有空格的 pdf？

python pypdf pdftotext

2013-06-16T04:38:39.070

0 投票

1 回答

1477 浏览

linux - 如何在Linux中使用pdftext在多个pdf文件中搜索一个单词

我的文件夹中有一些 pdf 文件，通过使用以下命令，我可以获得包含匹配单词的文件名和行。

但这仅适用于单个 pdf 文件，我想在其内容中包含搜索词的文件夹中获取所有文件名。我不想显示匹配的行，请建议我。谢谢

linux grep pdftotext

2013-06-18T11:40:39.583

0 投票

1 回答

2490 浏览

java - 特殊字符未正确从 pdf 转换为文本

我有一组包含中欧字符的 pdf 文件，例如 č、Ď、Š 等。我想将它们转换为文本，我已经尝试pdftotext并PDFBox通过 Apache Tika 但总是其中一些没有正确转换。

奇怪的是，同一文本中的相同字符在某些地方被正确转换，而在另一些地方则不正确！一个例子是这个pdf。

在 pdftotext 的情况下，我使用这些选项：

我的 Tika 代码如下所示：

编辑：忘了提到我在从 Acrobat Reader XI 转换为文本时也面临同样的问题。

java pdfbox apache-tika pdf-conversion pdftotext

2013-06-24T09:27:07.207

0 投票

1 回答

375 浏览

linux - Inaccurate pdf to text conversion

I have tried almost every pdf to text converter available on Linux, but some parts of text are corrupted/inaccurate. Like some characters are replaced with others, some words are missing from text which are present in the pdf. For some words converted text contains semicolons etc.

I also tried aspell so that i can correct the words, but aspell remains silent on some words.

NOTE: The pdf contains swedish language text.

So, Is there any solution to fix this inaccuracy in pdf to text conversion?

linux ocr aspell pdftotext

2013-07-22T11:16:53.173

0 投票

1 回答

732 浏览

python - pypdf 用于 pdf 列表

我已经让 pypdf 对单个 pdf 文件工作得很好，但我似乎无法让它对大量文件工作，或者在多个 pdf 的 for 循环中工作，而不会因为字符串不可调用而失败。有什么想法可以用作解决方法吗？

我正在使用一个列表，但我得到了完全相同的错误，我认为这没什么大不了的，但现在它正在成为一个。我知道我能够在 arcpy 中解决类似的问题，但这还不是很接近

python pypdf pdftotext

2013-07-23T19:03:57.400

0 投票

1 回答

3537 浏览

python - PDFMiner - 获取文本行

我正在使用此 SO 答案中提供的代码片段，使用PDFMiner Python 库将 PDF 文件转换为文本。问题是 PDF 是三列格式，我需要阅读每一行。但是，我得到的文本是无序的：有时混合第一列和第二列，有时混合第三列......由于文本不遵循任何逻辑顺序，我无法解析每一行。那么，有没有办法使用 PDFMiner 获取 PDF 文件的每一行？

编辑：

PDFMiner 带有一个命令行工具，pdf2txt.py用于将 PDF 转换为文本。使用它并设置0.05为字边距，我可以获得更好的格式化文本，但无法达到目标。

python pdftotext

2013-08-06T07:36:02.793

0 投票

1 回答

413 浏览

pdftotext - 编译 pdftotext.cc 时出错

我正在尝试编译以下代码：

https://github.com/zdanozdan/pdftotext/wiki

但是我的ubuntu（12.04）需要太多的依赖，所以我不知道如何实现成功编译。

编译行：

gcc -o pdftotext pdftotext.cc

第一个错误是：

pdftotext.cc:9:19：致命错误：aconf.h：没有此类文件或目录编译终止。

（对不起我的新手问题：）

pdftotext

2013-09-11T21:54:10.303

0 投票

0 回答

2430 浏览

java - 如何使用java从扫描的pdf文件中提取文本

我已经手动扫描了一些硬拷贝文件并存储到 pdf 文件（软拷贝）中。现在这些 pdf 文件是我的输入，所以我需要从这些 pdf 文件中提取文本。我尝试了 tika,pdfbox,itext,tess4j 没有任何东西可以为我的文件提供至少 50% 的准确度（主要是获取垃圾数据）（获取从互联网下载的其他 pdf 的准确文本），你能建议我解决这个问题吗？

谢谢

java itext tesseract pdfbox pdftotext

2013-09-26T07:17:40.783

0 投票

2 回答

5274 浏览

pdftotext - 从扫描的 pdf 中读取数据

我有被扫描的 pdf，无法转换为文本，甚至无法在文本编辑器中复制和粘贴为文本。

有没有办法以编程方式或手动将此类扫描的 PDF 文件转换为 TEXT 格式？

谢谢

pdftotext

2013-10-01T03:37:30.740

1 2 3 4 5 6 7 8 9 10

问题标签 [pdftotext]

Reference