问题标签 [pdf-extraction]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

113 问题

0 投票

1 回答

4652 浏览

python - 如何使用python提取图像和图像BBox坐标？

我正在尝试使用图像的 BBox 坐标提取 PDF 中的图像。

我尝试使用 pdfrw 库，它正在识别图像对象，并且它有一个名为媒体框的属性，它有一些坐标，我不确定这些是否是正确的 bbox 坐标，因为对于某些 pdf，它显示类似 ['0', ' 0', '684', '864'] 但图像不是从页面的开头开始，所以我不认为它是 bbox

我尝试使用 pdfrw 使用以下代码

如何获取图像及其 bbox 坐标？

示例 pdf：https ://drive.google.com/open?id=1IVbj1b3JfmSv_BJvGUqYvAPVl3FwC2A-

2019-02-06T06:41:47.600

0 投票

3 回答

1270 浏览

pdf - 如何从历史 PDF 中提取表格？

我需要从此文件中从类似格式的表中提取数据。有一些 OCR 错误，但我有一个自动化的方法来纠正它们。

我努力了：

ABBYY Finereader 表格检测。
表格提取
Camelot 表提取
自定义python代码

问题：广告工具在检测桌子边缘方面非常糟糕。这些表格遵循类似的一般格式，但每次扫描的对齐方式略有不同，因此硬编码寄宿生也不起作用。

问题：你们知道检测表格从哪里开始然后应用几个模板之一的好方法吗？

非常感谢此类工作的任何其他提示。

pdf ocr data-extraction pdf-extraction python-camelot

2019-02-23T01:33:47.120

0 投票

11 回答

21142 浏览

python - 如何检查 PDF 是扫描图像还是包含文本

我有大量文件，其中一些是扫描成 PDF 的图像，还有一些是全文/部分文本 PDF。

有没有办法检查这些文件以确保我们只处理扫描图像的文件而不是完整/部分文本 PDF 文件？

环境：Python 3.6

python python-3.x pypdf2 pdfminer pdf-extraction

2019-04-16T08:54:05.960

0 投票

11 回答

42627 浏览

python - 如何在 Python 3.7 中从 pdf 中提取文本

我正在尝试使用 Python 从 PDF 文件中提取文本。我的主要目标是尝试创建一个程序来读取银行对账单并提取其文本以更新 excel 文件以轻松记录每月支出。现在我只专注于从 pdf 文件中提取文本，但我不知道该怎么做。

目前将 PDF 文件中的文本提取为字符串的最佳和最简单的方法是什么？今天最好使用哪个库，我该怎么做？

我曾尝试使用 PyPDF2，但每次尝试使用 extractText() 从任何页面提取文本时，它都会返回空字符串。我尝试安装 textract 但我收到错误，因为我认为我需要更多库。

当它应该打印页面的内容时，它会打印空字符串

python pdf python-3.7 pypdf2 pdf-extraction

2019-04-19T20:29:28.453

0 投票

0 回答

666 浏览

python - 使用 PDFMiner.six Python3 将奇怪的字符打印到文件中

我目前正在使用 PDFMiner.six 从多个 PDF 中提取文本。查看我的输出，我可以看到我得到了一些特殊字符的奇怪转换，例如括号：

打开和关闭括号：

最后，我删除了所有的段落——定义为两行包含文本，前后各有一个空行兲，占 50% 以上

其他括号：

具TEXT典</p>

加：

单词+表格

单词⫹表格

减：

(-0.141)

共⫺1.41兲</p>

(SML * COMPLEX-LRG * COMPLEX) < 0 的测试

测试共SML ⴱ COMPLEX⫺LRG ⴱCOMPLEX兲 ⬍ 0

我正在使用以下代码：

我认为这是一个编码/解码问题，但是到目前为止找不到任何解决方案。使用 utf-8 作为编码，我认为这应该可以解决问题，但它没有....

任何帮助表示赞赏！

python unicode utf-8 character-encoding pdf-extraction

2019-05-06T09:38:29.350

0 投票

1 回答

994 浏览

javascript - 当需要路径或链接时将 pdf 文件传递给函数

我正在为一个在线图书馆开发一个网络应用程序。我想从将要上传的 PDF 中提取元数据，为此我使用 nodejs 库 pdf.js-extract 和 multer-gridfs-storage 进行上传。问题是我收到一个 PDF 文件 ( req.file) 并且该函数需要 PDF 文件的路径或链接，因此显示错误

我想知道是否有办法将文件作为链接传递、临时在本地保存文件或找到另一个适合我需要的库。

这是我当前的代码。

（编辑澄清）我正在使用带有gridFS的multer将文件上传到mongoose。

受 Oliver Nybo 启发的解决方案

javascript node.js pdf.js pdf-extraction multer-gridfs-storage

2019-05-07T09:03:45.073

0 投票

0 回答

101 浏览

r - 从R中的pdf框中提取数据

PDF 有数据框。我想从 R 中的这些框中提取所有数据。我希望在不使用 OCR 的情况下提取这些数据。

pdf中的盒子快照

我试过 Tabulizer 包，但它给出的结果杂乱无章，无法提取。

report <- extract_tables("C:\\Users\\672158\\Desktop\\example1.pdf", encoding = "UTF-8")

r pdf-extraction tabulizer pdftables

2019-07-25T10:48:16.907

0 投票

2 回答

4224 浏览

python-3.x - 使用python从扫描的pdf中提取pdf数据

我正在通过 tesseract ocr 从扫描的 pdf 中提取数据，并且能够提取数据，但准确性不佳。在许多地方，它显示错误的数据，所以我可以通过 python 获得 100% 准确的数据。

首先我将 pdf 转换为 jpg 格式，然后我使用 tesseract 模块从图像中提取数据。

我期望来自 pdf 的正确数据，但我得到不同的数据，例如 z 显示 2,5 是 s，1 是 I 等

python-3.x ocr python-tesseract pdfminer pdf-extraction

2019-08-22T09:28:15.603

0 投票

0 回答

41 浏览

java - 使用 tika 库进行数据提取

要求是解析pdf和文档文件。如何仅解析所需的页面，例如在 doc / pdf 文件中有 10 页。但要求是仅解析第 1 页 -3 和最后一页。

java apache-tika pdf-extraction

2019-09-16T11:56:11.860

0 投票

1 回答

946 浏览

python - 如何在 PyMuPDF 中获取文本的背景颜色

我想看看我是否可以使用文本的背景色和前景色来识别 PDF 内表格中可能的表格标题。通过 PyMuPDF 文本提取，我能够获得前景色。想知道是否也有办法获得背景颜色。

我在 python 3.7 中使用 pymupdf 1.16.2 我检查了文档，但只能找到一个颜色字段，它与 Text-color 而不是 background-color 相关联

如果有人知道如何使用 pyMuPDF 或其他包获取背景颜色，请告诉我

python pdf-extraction pymupdf

2019-09-26T06:30:06.457

1 2 3 4 5 6 7 8 9 10

问题标签 [pdf-extraction]

Reference