问题标签 [pdf-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2911 浏览

python - Tabula-py 从我试图提取的 PDF 文档中省略页面

我正在尝试使用 tabula-py 从多页 PDF 中提取表格,虽然 PDF 某些页面上的表格被完美提取,但某些页面被完全省略

遗漏似乎是随机的,不遵循 PDF 上任何可见的视觉特征(因为每个页面看起来都一样),因此 tabula 省略了第 1 页,提取的第 2 页,省略了第 3 和第 4 页,提取的第 5 页,省略了页面6,提取第8页和第9页,省略10,提取11等。我有macOS Sierra 10.12.6和Python 3.6.3 :: Anaconda custom(64位)。

我尝试将 PDF 分成更短的部分,甚至分成单页,但无论我尝试什么,似乎都无法提取被省略的页面。我已经阅读了 Tabula-py GitHub 页面以及 Stack Overflow 上的相关文档并提交了问题,但我似乎没有找到解决方案。

我通过 iPython 笔记本使用的代码如下:

通过终端安装表格:

要在我的 PDF 中提取表格:

我还尝试了以下方法,但没有任何区别

要将数据框保存到 csv 中:

如果您能帮我解决这个问题,我将非常感激,因为我觉得我被 PDF 卡住了,我只能从中提取大约 50% 的数据。这真令人生气,因为 50% 看起来绝对完美,但其他 50% 似乎超出了我的能力范围,使得分析数据的更大项目变得不可能。

我还想知道这是否可能是 PDF 而不是 Tabula 的问题 - 文件是否会被错误地设置为受保护或锁定,你们中是否有人知道我如何检查并打开它?

提前致谢!

0 投票
1 回答
917 浏览

python-3.x - 从 PDF 文档中提取特定片段

我有一些 pdf 格式的研究论文,我想从论文中提取介绍/背景等。另外,我只能使用python。有人可以帮忙吗?

0 投票
0 回答
430 浏览

python - PyPDF2从扫描的pdf中提取垂直文本

我正在尝试使用 PyPDF2 从扫描的 pdf 中提取文本。一些 pdf 包含垂直对齐的文本。但是页面的方向是纵向的。有什么方法可以识别文本是否垂直对齐并使用 pdfminer 或 PyPDF2 读取 PDF 中的垂直线

0 投票
2 回答
1812 浏览

python - Tabula CalledProcessError:返回非零退出状态 2. 尽一切可能

在 python 上使用 Tabula 时,我不断收到此错误。

我已经完成了与此相关的每个 stackoverflow 问题以及博客。

我的 JDK JRE 是最新的。

java 版本 "1.8.0_161" Java(TM) SE Runtime Environment (build 1.8.0_161-b12) Java HotSpot(TM) 64-Bit Server VM (build 25.161-b12, mixed mode)

我的路径在环境变量中正确定义。

在 Anaconda 上运行的 Python 版本。

Python 3.6.5 |Anaconda, Inc

我也尝试过编码。

感谢帮助。

0 投票
1 回答
903 浏览

python - 如何在 PDFPlumber 库中使用 page.filter(test_function)?

我正在尝试删除 pdf 页面内的表格,并尝试为此使用page.filter()函数,这里我有表格bbox 坐标 ,我试图比较对象坐标是否在表格坐标内。但我找不到过滤功能的任何示例用法。

这是文档链接

我尝试过这种方式:

但不幸的是,这种用法不起作用,请帮助了解如何使用 page.filter 功能

0 投票
1 回答
1172 浏览

node.js - Node.js - 使用 Google Cloud Vision API 从 PDF 文件中提取文本的问题

我是云环境和一般编程的新手,我正在努力使用 Google Vision API 从位于远程存储桶中的 PDF 文件中提取文本。

我发现很难在文档中甚至在 Stack Overflow 中获得与该主题相关的有意义的内容。我最接近解决这个问题的是这个问题:

Cloud Vision API - PDF OCR

但由于下面描述的原因,它对我不起作用,这就是为什么我要问我自己的问题。

这是问题所在:

我正在向指定的 url 发出以下 post 请求

POST 请求成功,然后根据我的发现,我必须使用我从之前的 post 请求中收到的响应发出一个 get 请求来检查文档文本检测是否完成。如果完成,它应该在我的 Bucket 内的文件中写入响应(这就是我在上面的 json 中配置“输出”的原因)

但是,当我在 url 上发出 get 请求时

我收到以下错误:

即使有办法解决这个问题来编写最终输出,我想知道这是否是从 pdf 中提取数据的最佳方法,发帖和获取看起来很奇怪,特别是考虑到当你提取时使用相同 API 从图像中获取数据,您只需发出一个请求

谢谢您的帮助。

0 投票
1 回答
3637 浏览

python - 如何使用 python 打印 .pdf 文件中的表格

CalledProcessError: 命令'['java', '-Dfile.encoding=UTF8', '-jar', 'C:\Users\vijv2c13136\AppData\Local\Continuum\anaconda2\lib\site-packages\tabula\tabula-1.0 .2-jar-with-dependencies.jar', '--pages', 'all', '--guess', '--format', 'JSON', 'TONY.pdf']' 返回非零退出状态 2

当我尝试打印 .pdf 文件中的表格时。它显示了这个特定的错误。

这是我的 .pdf 文件的表格提取代码。但是,当我尝试打印时,它会显示上述错误。

0 投票
2 回答
2583 浏览

python - Python-Camelot 提取空表

我正在使用 Camelot 通过以下命令提取 PDF 的多个部分。

当 PDF 实际包含这些区域中的数据时,这运行良好。但我不希望在每个解析的 PDF 中都有数据,有些返回的是空的。当返回的数据不是表格并且只有一列时,我收到以下错误。

我需要一种方法来提取所有 PDF 中的这些特定区域,但之后忽略空的区域。需要能够有序地使用提取的数据。

也欢迎任何其他建议

TIA

0 投票
2 回答
2069 浏览

python - 使用 Camelot 查找 PDF 尺寸

我正在使用 Camelot 阅读完整的 PDF,并从每个 PDF 中提取大约 112 个属性。

我使用表格区域来提取属性

问题是所有文档中相同属性的表格区域不是恒定的。有时我会在另一个文档中的 x 或 y 坐标下几个像素处找到相同的属性。

无论提取任何文档,有没有办法从同一区域获取确切的属性?

0 投票
2 回答
2153 浏览

python - 从 PDF 文档中删除空格

我正在使用 Camelot-py 从几个 PDF 中读取和提取属性。我使用 table_areas 来提取一些属性,并且由于某些表单之间的 X 或 Y 坐标的偏差,我在设置正确的区域时遇到了困难。一些表格(示例 1)在顶部有最少的空格,而其他表格(示例 2)有更多的空格。这将 y 坐标移动了大约 10-15

样品 1 在此处输入图像描述

样品 2 在此处输入图像描述

有没有办法在运行时裁剪或统一它们?