问题标签 [pdfminer]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

435 问题

0 投票

1 回答

1506 浏览

python - 如何在 python 中使用 pdfminer 调整“word_margin”以读取 PDF？

我尝试使用以下代码使用 python 操作“word_margin”，但它给我一个错误TypeError: get_pages() got an unexpected keyword argument 'word_margin'。word_margin=word_margin如果我从参数中删除，PDFminer 可以很好地读取文档。

代码：

python pdfminer

2015-05-13T19:25:37.730

0 投票

1 回答

4049 浏览

python - Python文本提取不适用于某些pdf

我正在尝试通过 url 阅读 pdf。我遵循了许多 stackoverflow 建议并使用 PyPdf2 FileReader 从 pdf 中提取文本。我的代码如下所示：

我能够成功提取第一个链接的文本。但是，如果我对第二个 pdf 使用相同的程序。我没有收到任何文字。页码和文档信息似乎出现了。

我尝试通过终端从 Pdfminer 中提取文本，并且能够从第二个 pdf 中提取文本。

知道 pdf 有什么问题，或者我正在使用的库有什么缺点吗？

2015-05-16T05:45:00.063

0 投票

0 回答

520 浏览

python - PDFminer 跳过行或错位字符串行

我开发了一个读取 PDF 文件的程序，但我注意到我用来读取它们的工具 (PDFminer) 似乎放错了文本或根本没有放置它。输出似乎非常清晰和准确。它尊重间距和换行，因此输出看起来更像是原始 PDF。但是，它似乎跳过了一些行（在我检查的文件中发生一次）和错位的行（在错位的行具有其他 10 行的模式的文档中发生了两次，那么为什么只在这两个中发生？）

检索行的代码是这样的：

有任何想法吗？或者有人遇到过这个问题吗？我已经研究过这个问题，但没有结果。也许是使用任何其他工具（如 pyPdf2）的方法

python file file-io io pdfminer

2015-05-22T06:22:50.503

0 投票

2 回答

1394 浏览

python - Python Script to run a command over all files in a folder

For converting pdf to text I am using the following command:

pdf2txt.py -o text.txt example.pdf # It will convert example.pdf to text.txt

But I have more than 1000 pdf files which I need to convert to text file first and then do the analysis.

Is there a way through which I can use this command to iterate over the pdf files and convert all of them?

python pdf text data-analysis pdfminer

2015-06-03T15:46:04.997

0 投票

3 回答

3003 浏览

pdf - 用Python3.4提取PDF文本

pdf 文件中的文本是文本格式，不是扫描的。PDFMiner不支持python3，有没有其他解决方案？

pdf python-3.x pdf-parsing pdfminer

2015-06-24T10:11:12.343

0 投票

1 回答

717 浏览

python-2.7 - 使用python读取pdf文件

我有一个已转换为普通 pdf 文档的 pdf 表格（使用 print2pdf 软件）。我打算从中提取数据，有什么办法吗？

我目前正在使用 pdfminer ，但它往往不会提取用户输入的数据，而是提取所有其他数据。

pdf2txt.py PDFFormconvertedintoPDF.pdf

有没有其他方法可以帮助我实现我想要的？

python-2.7 pdf pdfminer

2015-07-09T01:50:11.397

0 投票

1 回答

8988 浏览

python - pdf2txt.py 不执行命令

每当我在命令行上使用 pdf2txt.py 时，源文件都会打开并且命令不会执行。我刚刚安装了这些软件包，但无法让它运行。例如，我将键入命令：

输入命令后，文件 pdf2txt.py 将打开，命令不会执行。有没有人遇到过这个？我究竟做错了什么？

我正在使用 Windows 命令提示符。任何帮助将不胜感激。

python pdf pdfminer pdf-scraping

2015-07-22T21:50:43.650

0 投票

2 回答

1294 浏览

python - 判断 PDF 文本是否可见

我正在使用pdfminer库解析一些 PDF 文件。

我需要知道文档是否是扫描文档，扫描机器将扫描的图像放在顶部，将 OCR 提取的文本放在背景中。

有没有办法识别文本是否可见，因为 OCR 机器确实将它放在页面上以供选择。

通常，问题在于区分两个非常不同但看起来相似的案例。

在一种情况下，扫描文档的图像覆盖了大部分页面，其后面带有 OCR 文本。

这是 PDF 作为文本，图像被截断： http: //pastebin.com/a3nc9ZrG

在另一种情况下，有一个背景图像覆盖了页面的大部分，并且前面有文本。

将它们区分开来对我来说很困难。

python pdf pdfminer

2015-08-03T14:42:47.853

0 投票

1 回答

3259 浏览

python - 使用 PDFminer 解析 pdf（梵文脚本）会给出不正确的输出

python parsing pdf hindi pdfminer

2015-08-07T11:15:58.600

0 投票

1 回答

304 浏览

python - 使用文本索引从 PDF 文件中提取特定数据以定位

我正在解析显示多个不同货物运输信息的 PDF 文件。数据包括地址、商品金额等。我已经成功提取出构成每个文件实质的文本字符串。文件的呈现方式相对一致，但不像 HTML 或 XML 那样易于定位数据。首先，我正在尝试提取项目数量。在文本中，子字符串“<code>TOTAL BOXES:”有多个实例。每一个之后，都有一个整数（所以它看起来像这样：“<code>TOTAL BOXES: 3”）

我的方法，如下面的代码所示（一直在底部），一直是：

找到关键短语“<code>TOTAL BOXES:”的实例
查找“<code>TOTAL BOXES:”的每个实例的索引</li>
使用这个子字符串中最后一个字符的索引——在这种情况下是“<code>:”——到“<code>向前移动”2个字符索引位置来拉数据。

我认为可能有更优雅的解决方案，我很高兴听到它们。但现在我选择方法的主要绊脚石是：

我能够将关键短语的每个索引作为列表中的一个项目返回。然后我将 2 添加到该索引以获得“后端”索引。我现在知道确切的索引或文本中提供目标数据的每个位置。每个索引都存储为我的变量下的列表项，instance_begin.

这就是我的代码崩溃的地方，我的新手大放异彩。为了获取数据，我这样做：

对于 instance_begin 中的框：

返回异常：

TypeError：列表索引必须是整数，而不是列表

帮助表示赞赏。

代码：

python regex pdf pdfminer

2015-08-08T04:40:00.093

1 2 3 4 5 6 7 8 9 10

问题标签 [pdfminer]

Reference