问题标签 [pdfminer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 pdfminer 从 pdf 中提取文本会提供多个副本
我正在尝试使用 PDFMiner 从 PDF 文件中提取文本(在使用 Python 中的 PDFMiner 从 PDF 文件中提取文本中找到的代码?)。除了path/to/pdf,我没有更改代码。令人惊讶的是,该代码返回了同一文档的多个副本。我对其他 pdf 文件得到了相同的结果。我需要传递其他参数还是我遗漏了什么?非常感谢任何帮助。以防万一,我提供代码:
python - PDFQuery + 服务器上的文件
我正在尝试在位于“ https://developer.apple.com/library/ios/documentation/ides/conceptual/AppDistributionGuide/AppDistributionGuide.pdf ”的文档中搜索文本字符串,例如“可以”
为此,我正在使用 PDFQuery。最初我在我的机器上下载了pdf并做了我的代码。它工作完美。但是当我尝试在文件位置输入服务器 url 时,它显示错误。我知道 PDFQuery 库是为在本地机器上工作而开发的。
有什么方法可以让我弄清楚一些事情并解决我的问题。这是我的课程项目的一部分,我应该开发的 pdf 搜索模块将部署在 IBM Bluemix 上并从那里运行它。只有这部分在我的项目中待定。任何帮助表示赞赏。
先感谢您。
python - 如何在 python 中使用 pdfMiner 来预测读取值
我一直在使用 pdfMiner 从图表中读取值,到目前为止它运行良好!
然而,有一个区域可以正确读取正确的数据,但以不可预测的方式,这意味着它将正确读取所有图形值,其顺序与它们出现的顺序完全不同。
这并不完全是一个问题,因为只要我知道,说最后一张图总是首先被读取,我可以围绕它构建我的程序。除了似乎 pdfMiner 在读取这些数据的方式上几乎完全不可预测之外,我找不到可辨别的模式。
这很可能是因为我对 pdfMiner 很不熟悉,所以我不完全确定它是如何工作的。所以是的,如果有人能指出我正确的方向,那将非常有帮助。
这是我的数据
这是我正在使用的转换代码:
pdfminer - 安装 PDFMiner for Python2.7 时观察到的错误
我按照这里的说明进行操作:file:///home/bioinfo/Descargas/pdfminer3k-1.3.0/docs/index.html
下载pdfminer3k-1.3.0后我做了:
python setup.py 安装
但是当我这样做时
pdf2txt.py 样本/simple1.pdf
而且它不读取pdf,路径还可以。它给了我错误:
>
有什么解决办法吗?
python - 如何将提取的图像写入文件对象而不是文件系统?
我正在使用 Python pdfminer 库从 PDF 中提取文本和图像。由于TextConverter 类默认写入sys.stdout
,因此我曾经StringIO
将文本作为变量捕获,如下所示(请参阅粘贴:
这适用于提取的文本。此功能还可以提取 PDF 中的图像并将它们写入'extractedImageFolder/'
. 这也很好,但我现在希望将图像“写入”文件对象而不是文件系统,以便我可以对它们进行一些后期处理。
ImageWriter 类定义了一个文件 ( fp = file(path, 'wb')
),然后写入该文件。我想要的是我的extractTextAndImagesFromPDF()
函数还可以返回文件对象列表,而不是直接将它们写入文件。我想我也需要使用StringIO
它,但我不知道如何。部分还因为写入文件是在 pdfminer 中发生的。
有谁知道我如何返回文件对象列表而不是将图像写入文件系统?欢迎所有提示!
python - 从文件读取和 MongoDB GridFS 之间的区别?
我正在开发一个使用 Python Flask 框架来处理 PDF 的网站。我将 PDF 文件存储在 MongoDB 中,当我需要将它们提供给访问用户时,它可以正常工作。我现在需要使用pdfminer 库进行一些文本和图像提取。当我使用pdf2txt.py并从文件系统提供文件时,这一行(这里的上下文)几乎可以立即工作:
但是当我编辑代码以便从我的 MongoDB 提供GridFS对象时,第二行(因此在检索完成后)需要大约 8 秒才能成功(结果与上面的代码相同):
这让我感到惊讶,因为我假设从我的 MongoDB 中获取文件或从文件系统中获取文件会返回相同的结果(它在浏览器中呈现相同的结果),但显然它不一样。
有谁知道这两者之间的区别是什么导致这个电话需要这么长时间,更重要的是我该如何解决它?欢迎所有提示!
python - 在 Python 中从 PDF 中提取超链接
我有一个包含几个超链接的 PDF 文档,我需要从 pdf 中提取所有文本。我使用了 PDFMiner 库和来自 http://www.endliescurious.com/2012/06/13/scraping-pdf-with-python/的代码来提取文本。但是,它不会提取超链接。
例如,我的文本显示Check this link out,并附有一个链接。我能够提取单词Check this link out
,但我真正需要的是超链接本身,而不是单词。
我该怎么做呢?理想情况下,我更喜欢用 Python 来做,但我也愿意用任何其他语言来做。
我看过itextsharp
,但没用过。我正在运行Ubuntu
,并希望得到任何帮助。
python - 从pdf中提取表格
我正在尝试从此PDF中的表中获取数据。我已经尝试了 pdfminer 和 pypdf ,但我无法真正从表格中获取数据。
这是其中一张表的样子:
如您所见,某些列标有“x”。我正在尝试将此表转换为对象列表。
这是到目前为止的代码,我现在正在使用 pdfminer。
这会产生一个文本文件并获取所有文本,但是 x 没有保留间距。输出如下所示:
x 在文本文档中只是单行距
现在,我只是在生成文本输出,但我的目标是使用表格中的数据生成一个 html 文档。我一直在寻找 OCR 示例,其中大多数看起来令人困惑或不完整。我愿意使用 C# 或任何其他可能产生我正在寻找的结果的语言。
编辑:将有多个像这样的 pdf,我需要从中获取表数据。所有 pdf 的标题都是相同的(据我所知)。
python-2.7 - 如何访问部分包含无效语法的现有(!)矩阵?
我使用 pdfminer 将 pdf-text 转换为 txt。pdfminer 遍历 pdf 文件并逐行读取。每行都分配给一个矩阵变量。问题是,由于某种原因,在极少数情况下,矩阵例如x =
显然 Г 不带引号是矩阵(或列表)的无效语法。但是, x存在但无法删除 Г,可以理解del x[0][0]不起作用。
现在我正在询问如何访问x并删除第一个元素的想法。提前谢谢了!