问题标签 [pdfminer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在 python 中使用 pdfminer 调整“word_margin”以读取 PDF?
我尝试使用以下代码使用 python 操作“word_margin”,但它给我一个错误TypeError: get_pages() got an unexpected keyword argument 'word_margin'
。word_margin=word_margin
如果我从参数中删除,PDFminer 可以很好地读取文档。
代码:
python - Python文本提取不适用于某些pdf
我正在尝试通过 url 阅读 pdf。我遵循了许多 stackoverflow 建议并使用 PyPdf2 FileReader 从 pdf 中提取文本。我的代码如下所示:
我能够成功提取第一个链接的文本。但是,如果我对第二个 pdf 使用相同的程序。我没有收到任何文字。页码和文档信息似乎出现了。
我尝试通过终端从 Pdfminer 中提取文本,并且能够从第二个 pdf 中提取文本。
知道 pdf 有什么问题,或者我正在使用的库有什么缺点吗?
python - PDFminer 跳过行或错位字符串行
我开发了一个读取 PDF 文件的程序,但我注意到我用来读取它们的工具 (PDFminer) 似乎放错了文本或根本没有放置它。输出似乎非常清晰和准确。它尊重间距和换行,因此输出看起来更像是原始 PDF。但是,它似乎跳过了一些行(在我检查的文件中发生一次)和错位的行(在错位的行具有其他 10 行的模式的文档中发生了两次,那么为什么只在这两个中发生?)
检索行的代码是这样的:
有任何想法吗?或者有人遇到过这个问题吗?我已经研究过这个问题,但没有结果。也许是使用任何其他工具(如 pyPdf2)的方法
python - Python Script to run a command over all files in a folder
For converting pdf to text I am using the following command:
pdf2txt.py -o text.txt example.pdf # It will convert example.pdf to text.txt
But I have more than 1000 pdf files which I need to convert to text file first and then do the analysis.
Is there a way through which I can use this command to iterate over the pdf files and convert all of them?
pdf - 用Python3.4提取PDF文本
pdf 文件中的文本是文本格式,不是扫描的。PDFMiner不支持python3,有没有其他解决方案?
python-2.7 - 使用python读取pdf文件
我有一个已转换为普通 pdf 文档的 pdf 表格(使用 print2pdf 软件)。我打算从中提取数据,有什么办法吗?
我目前正在使用 pdfminer ,但它往往不会提取用户输入的数据,而是提取所有其他数据。
pdf2txt.py PDFFormconvertedintoPDF.pdf
有没有其他方法可以帮助我实现我想要的?
python - pdf2txt.py 不执行命令
每当我在命令行上使用 pdf2txt.py 时,源文件都会打开并且命令不会执行。我刚刚安装了这些软件包,但无法让它运行。例如,我将键入命令:
输入命令后,文件 pdf2txt.py 将打开,命令不会执行。有没有人遇到过这个?我究竟做错了什么?
我正在使用 Windows 命令提示符。任何帮助将不胜感激。
python - 判断 PDF 文本是否可见
我正在使用pdfminer库解析一些 PDF 文件。
我需要知道文档是否是扫描文档,扫描机器将扫描的图像放在顶部,将 OCR 提取的文本放在背景中。
有没有办法识别文本是否可见,因为 OCR 机器确实将它放在页面上以供选择。
通常,问题在于区分两个非常不同但看起来相似的案例。
在一种情况下,扫描文档的图像覆盖了大部分页面,其后面带有 OCR 文本。
这是 PDF 作为文本,图像被截断: http: //pastebin.com/a3nc9ZrG
在另一种情况下,有一个背景图像覆盖了页面的大部分,并且前面有文本。
将它们区分开来对我来说很困难。
python - 使用文本索引从 PDF 文件中提取特定数据以定位
我正在解析显示多个不同货物运输信息的 PDF 文件。数据包括地址、商品金额等。我已经成功提取出构成每个文件实质的文本字符串。文件的呈现方式相对一致,但不像 HTML 或 XML 那样易于定位数据。首先,我正在尝试提取项目数量。在文本中,子字符串“<code>TOTAL BOXES:”有多个实例。每一个之后,都有一个整数(所以它看起来像这样:“<code>TOTAL BOXES: 3”)
我的方法,如下面的代码所示(一直在底部),一直是:
- 找到关键短语“<code>TOTAL BOXES:”的实例
- 查找“<code>TOTAL BOXES:”的每个实例的索引</li>
- 使用这个子字符串中最后一个字符的索引——在这种情况下是“<code>:”——到“<code>向前移动”2个字符索引位置来拉数据。
我认为可能有更优雅的解决方案,我很高兴听到它们。但现在我选择方法的主要绊脚石是:
我能够将关键短语的每个索引作为列表中的一个项目返回。然后我将 2 添加到该索引以获得“后端”索引。我现在知道确切的索引或文本中提供目标数据的每个位置。每个索引都存储为我的变量下的列表项,instance_begin
.
这就是我的代码崩溃的地方,我的新手大放异彩。为了获取数据,我这样做:
对于 instance_begin 中的框:
返回异常:
TypeError:列表索引必须是整数,而不是列表
帮助表示赞赏。
代码: