问题标签 [pdftotext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - PDFParser 错误信息
错误 1
'org.pdfbox.pdfparser.PDFParser.PDFParser(java.io.InputStream)' 的最佳重载方法匹配有一些无效参数 H:\pdf_ver3.cs 129 51 PDF-to-Text Converter
代码:
python - 是否可以在 Python 中提取带有空格的 pdf?
在创建了使用 java 和 pdfbox 提取 PDF 的工具后,我一直在尝试使用 Python 提取 pdf。
虽然 Java 实现对于同一个 pdf 是成功的,但我一直在努力在 python 中做同样的事情,因为 pdfminer 和 pypdf 和 pypdf2 都无法使用空格逐行提取 pdf。特别是,pdfminer pdf2txt 出于某种奇怪的原因将 pdf 分成 3 列,然后逐行读取。
我得到的最接近的是使用堆栈溢出问题的实现,不幸的是它没有保留空格。鉴于我有两个都有数字的变量,我无法以文本形式恢复它们。
鉴于此,是否可以在 Python 中逐行提取带有空格的 pdf?
linux - 如何在Linux中使用pdftext在多个pdf文件中搜索一个单词
我的文件夹中有一些 pdf 文件,通过使用以下命令,我可以获得包含匹配单词的文件名和行。
但这仅适用于单个 pdf 文件,我想在其内容中包含搜索词的文件夹中获取所有文件名。我不想显示匹配的行,请建议我。谢谢
java - 特殊字符未正确从 pdf 转换为文本
我有一组包含中欧字符的 pdf 文件,例如 č、Ď、Š 等。我想将它们转换为文本,我已经尝试pdftotext
并PDFBox
通过 Apache Tika 但总是其中一些没有正确转换。
奇怪的是,同一文本中的相同字符在某些地方被正确转换,而在另一些地方则不正确!一个例子是这个pdf。
在 pdftotext 的情况下,我使用这些选项:
我的 Tika 代码如下所示:
编辑:忘了提到我在从 Acrobat Reader XI 转换为文本时也面临同样的问题。
linux - Inaccurate pdf to text conversion
I have tried almost every pdf to text converter available on Linux, but some parts of text are corrupted/inaccurate. Like some characters are replaced with others, some words are missing from text which are present in the pdf. For some words converted text contains semicolons etc.
I also tried aspell so that i can correct the words, but aspell remains silent on some words.
NOTE: The pdf contains swedish language text.
So, Is there any solution to fix this inaccuracy in pdf to text conversion?
python - pypdf 用于 pdf 列表
我已经让 pypdf 对单个 pdf 文件工作得很好,但我似乎无法让它对大量文件工作,或者在多个 pdf 的 for 循环中工作,而不会因为字符串不可调用而失败。有什么想法可以用作解决方法吗?
我正在使用一个列表,但我得到了完全相同的错误,我认为这没什么大不了的,但现在它正在成为一个。我知道我能够在 arcpy 中解决类似的问题,但这还不是很接近
python - PDFMiner - 获取文本行
我正在使用此 SO 答案中提供的代码片段,使用PDFMiner Python 库将 PDF 文件转换为文本。问题是 PDF 是三列格式,我需要阅读每一行。但是,我得到的文本是无序的:有时混合第一列和第二列,有时混合第三列......由于文本不遵循任何逻辑顺序,我无法解析每一行。那么,有没有办法使用 PDFMiner 获取 PDF 文件的每一行?
编辑:
PDFMiner 带有一个命令行工具,pdf2txt.py
用于将 PDF 转换为文本。使用它并设置0.05
为字边距,我可以获得更好的格式化文本,但无法达到目标。
pdftotext - 编译 pdftotext.cc 时出错
我正在尝试编译以下代码:
https://github.com/zdanozdan/pdftotext/wiki
但是我的ubuntu(12.04)需要太多的依赖,所以我不知道如何实现成功编译。
编译行:
gcc -o pdftotext pdftotext.cc
第一个错误是:
pdftotext.cc:9:19:致命错误:aconf.h:没有此类文件或目录编译终止。
(对不起我的新手问题:)
java - 如何使用java从扫描的pdf文件中提取文本
我已经手动扫描了一些硬拷贝文件并存储到 pdf 文件(软拷贝)中。现在这些 pdf 文件是我的输入,所以我需要从这些 pdf 文件中提取文本。我尝试了 tika,pdfbox,itext,tess4j 没有任何东西可以为我的文件提供至少 50% 的准确度(主要是获取垃圾数据)(获取从互联网下载的其他 pdf 的准确文本),你能建议我解决这个问题吗?
谢谢
pdftotext - 从扫描的 pdf 中读取数据
我有被扫描的 pdf,无法转换为文本,甚至无法在文本编辑器中复制和粘贴为文本。
有没有办法以编程方式或手动将此类扫描的 PDF 文件转换为 TEXT 格式?
谢谢