问题标签 [pdfminer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1506 浏览

python - 如何在 python 中使用 pdfminer 调整“word_margin”以读取 PDF?

我尝试使用以下代码使用 python 操作“word_margin”,但它给我一个错误TypeError: get_pages() got an unexpected keyword argument 'word_margin'word_margin=word_margin如果我从参数中删除,PDFminer 可以很好地读取文档。

代码:

0 投票
1 回答
4049 浏览

python - Python文本提取不适用于某些pdf

我正在尝试通过 url 阅读 pdf。我遵循了许多 stackoverflow 建议并使用 PyPdf2 FileReader 从 pdf 中提取文本。我的代码如下所示:

我能够成功提取第一个链接的文本。但是,如果我对第二个 pdf 使用相同的程序。我没有收到任何文字。页码和文档信息似乎出现了。

我尝试通过终端从 Pdfminer 中提取文本,并且能够从第二个 pdf 中提取文本。

知道 pdf 有什么问题,或者我正在使用的库有什么缺点吗?

0 投票
0 回答
520 浏览

python - PDFminer 跳过行或错位字符串行

我开发了一个读取 PDF 文件的程序,但我注意到我用来读取它们的工具 (PDFminer) 似乎放错了文本或根本没有放置它。输出似乎非常清晰和准确。它尊重间距和换行,因此输出看起来更像是原始 PDF。但是,它似乎跳过了一些行(在我检查的文件中发生一次)和错位的行(在错位的行具有其他 10 行的模式的文档中发生了两次,那么为什么只在这两个中发生?)

检索行的代码是这样的:

有任何想法吗?或者有人遇到过这个问题吗?我已经研究过这个问题,但没有结果。也许是使用任何其他工具(如 pyPdf2)的方法

0 投票
2 回答
1394 浏览

python - Python Script to run a command over all files in a folder

For converting pdf to text I am using the following command:

pdf2txt.py -o text.txt example.pdf # It will convert example.pdf to text.txt

But I have more than 1000 pdf files which I need to convert to text file first and then do the analysis.

Is there a way through which I can use this command to iterate over the pdf files and convert all of them?

0 投票
3 回答
3003 浏览

pdf - 用Python3.4提取PDF文本

pdf 文件中的文本是文本格式,不是扫描的。PDFMiner不支持python3,有没有其他解决方案?

0 投票
1 回答
717 浏览

python-2.7 - 使用python读取pdf文件

我有一个已转换为普通 pdf 文档的 pdf 表格(使用 print2pdf 软件)。我打算从中提取数据,有什么办法吗?

我目前正在使用 pdfminer ,但它往往不会提取用户输入的数据,而是提取所有其他数据。

pdf2txt.py PDFFormconvertedintoPDF.pdf

有没有其他方法可以帮助我实现我想要的?

0 投票
1 回答
8988 浏览

python - pdf2txt.py 不执行命令

每当我在命令行上使用 pdf2txt.py 时,源文件都会打开并且命令不会执行。我刚刚安装了这些软件包,但无法让它运行。例如,我将键入命令:

输入命令后,文件 pdf2txt.py 将打开,命令不会执行。有没有人遇到过这个?我究竟做错了什么?

我正在使用 Windows 命令提示符。任何帮助将不胜感激。

0 投票
2 回答
1294 浏览

python - 判断 PDF 文本是否可见

我正在使用pdfminer库解析一些 PDF 文件。

我需要知道文档是否是扫描文档,扫描机器将扫描的图像放在顶部,将 OCR 提取的文本放在背景中。

有没有办法识别文本是否可见,因为 OCR 机器确实将它放在页面上以供选择。

通常,问题在于区分两个非常不同但看起来相似的案例。

在一种情况下,扫描文档的图像覆盖了大部分页面,其后面带有 OCR 文本。

这是 PDF 作为文本,图像被截断: http: //pastebin.com/a3nc9ZrG

在另一种情况下,有一个背景图像覆盖了页面的大部分,并且前面有文本。

将它们区分开来对我来说很困难。

0 投票
1 回答
3259 浏览

python - 使用 PDFminer 解析 pdf(梵文脚本)会给出不正确的输出

0 投票
1 回答
304 浏览

python - 使用文本索引从 PDF 文件中提取特定数据以定位

我正在解析显示多个不同货物运输信息的 PDF 文件。数据包括地址、商品金额等。我已经成功提取出构成每个文件实质的文本字符串。文件的呈现方式相对一致,但不像 HTML 或 XML 那样易于定位数据。首先,我正在尝试提取项目数量。在文本中,子字符串“<code>TOTAL BOXES:”有多个实例。每一个之后,都有一个整数(所以它看起来像这样:“<code>TOTAL BOXES: 3”)

我的方法,如下面的代码所示(一直在底部),一直是:

  1. 找到关键短语“<code>TOTAL BOXES:”的实例
  2. 查找“<code>TOTAL BOXES:”的每个实例的索引</li>
  3. 使用这个子字符串中最后一个字符的索引——在这种情况下是“<code>:”——到“<code>向前移动”2个字符索引位置来拉数据。

我认为可能有更优雅的解决方案,我很高兴听到它们。但现在我选择方法的主要绊脚石是:

我能够将关键短语的每个索引作为列表中的一个项目返回。然后我将 2 添加到该索引以获得“后端”索引。我现在知道确切的索引或文本中提供目标数据的每个位置。每个索引都存储为我的变量下的列表项,instance_begin.

这就是我的代码崩溃的地方,我的新手大放异彩。为了获取数据,我这样做:

对于 instance_begin 中的框:

返回异常:

TypeError:列表索引必须是整数,而不是列表

帮助表示赞赏。

代码: