“pdf-extraction”的相关标签问题

0 投票

2 回答

2911 浏览

python - Tabula-py 从我试图提取的 PDF 文档中省略页面

我正在尝试使用 tabula-py 从多页 PDF 中提取表格，虽然 PDF 某些页面上的表格被完美提取，但某些页面被完全省略。

遗漏似乎是随机的，不遵循 PDF 上任何可见的视觉特征（因为每个页面看起来都一样），因此 tabula 省略了第 1 页，提取的第 2 页，省略了第 3 和第 4 页，提取的第 5 页，省略了页面6，提取第8页和第9页，省略10，提取11等。我有macOS Sierra 10.12.6和Python 3.6.3 :: Anaconda custom（64位）。

我尝试将 PDF 分成更短的部分，甚至分成单页，但无论我尝试什么，似乎都无法提取被省略的页面。我已经阅读了 Tabula-py GitHub 页面以及 Stack Overflow 上的相关文档并提交了问题，但我似乎没有找到解决方案。

我通过 iPython 笔记本使用的代码如下：

通过终端安装表格：

要在我的 PDF 中提取表格：

我还尝试了以下方法，但没有任何区别

要将数据框保存到 csv 中：

如果您能帮我解决这个问题，我将非常感激，因为我觉得我被 PDF 卡住了，我只能从中提取大约 50% 的数据。这真令人生气，因为 50% 看起来绝对完美，但其他 50% 似乎超出了我的能力范围，使得分析数据的更大项目变得不可能。

我还想知道这是否可能是 PDF 而不是 Tabula 的问题 - 文件是否会被错误地设置为受保护或锁定，你们中是否有人知道我如何检查并打开它？

提前致谢！

2018-07-29T23:46:50.240

0 投票

1 回答

917 浏览

python-3.x - 从 PDF 文档中提取特定片段

我有一些 pdf 格式的研究论文，我想从论文中提取介绍/背景等。另外，我只能使用python。有人可以帮忙吗？

python-3.x text-mining pdf-extraction

2018-08-12T09:49:01.190

0 投票

0 回答

430 浏览

python - PyPDF2从扫描的pdf中提取垂直文本

我正在尝试使用 PyPDF2 从扫描的 pdf 中提取文本。一些 pdf 包含垂直对齐的文本。但是页面的方向是纵向的。有什么方法可以识别文本是否垂直对齐并使用 pdfminer 或 PyPDF2 读取 PDF 中的垂直线

python python-3.x pypdf2 pdfminer pdf-extraction

2018-09-27T05:53:38.013

0 投票

2 回答

1812 浏览

python - Tabula CalledProcessError：返回非零退出状态 2. 尽一切可能

在 python 上使用 Tabula 时，我不断收到此错误。

我已经完成了与此相关的每个 stackoverflow 问题以及博客。

我的 JDK JRE 是最新的。

java 版本 "1.8.0_161" Java(TM) SE Runtime Environment (build 1.8.0_161-b12) Java HotSpot(TM) 64-Bit Server VM (build 25.161-b12, mixed mode)

我的路径在环境变量中正确定义。

在 Anaconda 上运行的 Python 版本。

Python 3.6.5 |Anaconda, Inc

我也尝试过编码。

感谢帮助。

python tabula pdf-extraction

2018-10-04T05:22:55.450

0 投票

1 回答

903 浏览

python - 如何在 PDFPlumber 库中使用 page.filter(test_function)？

我正在尝试删除 pdf 页面内的表格，并尝试为此使用page.filter()函数，这里我有表格bbox 坐标 ，我试图比较对象坐标是否在表格坐标内。但我找不到过滤功能的任何示例用法。

这是文档链接

我尝试过这种方式：

但不幸的是，这种用法不起作用，请帮助了解如何使用 page.filter 功能

python pdf pdf-parsing pdf-extraction

2018-11-03T08:30:20.687

0 投票

1 回答

1172 浏览

node.js - Node.js - 使用 Google Cloud Vision API 从 PDF 文件中提取文本的问题

我是云环境和一般编程的新手，我正在努力使用 Google Vision API 从位于远程存储桶中的 PDF 文件中提取文本。

我发现很难在文档中甚至在 Stack Overflow 中获得与该主题相关的有意义的内容。我最接近解决这个问题的是这个问题：

Cloud Vision API - PDF OCR

但由于下面描述的原因，它对我不起作用，这就是为什么我要问我自己的问题。

这是问题所在：

我正在向指定的 url 发出以下 post 请求

POST 请求成功，然后根据我的发现，我必须使用我从之前的 post 请求中收到的响应发出一个 get 请求来检查文档文本检测是否完成。如果完成，它应该在我的 Bucket 内的文件中写入响应（这就是我在上面的 json 中配置“输出”的原因）

但是，当我在 url 上发出 get 请求时

我收到以下错误：

即使有办法解决这个问题来编写最终输出，我想知道这是否是从 pdf 中提取数据的最佳方法，发帖和获取看起来很奇怪，特别是考虑到当你提取时使用相同 API 从图像中获取数据，您只需发出一个请求

谢谢您的帮助。

node.js google-cloud-platform google-vision pdf-extraction

2018-11-19T19:55:07.013

0 投票

1 回答

3637 浏览

python - 如何使用 python 打印 .pdf 文件中的表格

CalledProcessError: 命令'['java', '-Dfile.encoding=UTF8', '-jar', 'C:\Users\vijv2c13136\AppData\Local\Continuum\anaconda2\lib\site-packages\tabula\tabula-1.0 .2-jar-with-dependencies.jar', '--pages', 'all', '--guess', '--format', 'JSON', 'TONY.pdf']' 返回非零退出状态 2

当我尝试打印 .pdf 文件中的表格时。它显示了这个特定的错误。

这是我的 .pdf 文件的表格提取代码。但是，当我尝试打印时，它会显示上述错误。

python pdf-extraction

2018-12-13T06:18:15.870

0 投票

2 回答

2583 浏览

python - Python-Camelot 提取空表

我正在使用 Camelot 通过以下命令提取 PDF 的多个部分。

当 PDF 实际包含这些区域中的数据时，这运行良好。但我不希望在每个解析的 PDF 中都有数据，有些返回的是空的。当返回的数据不是表格并且只有一列时，我收到以下错误。

和

我需要一种方法来提取所有 PDF 中的这些特定区域，但之后忽略空的区域。需要能够有序地使用提取的数据。

也欢迎任何其他建议

TIA

python pandas dataframe pdf-extraction python-camelot

2019-01-02T09:52:04.700

0 投票

2 回答

2069 浏览

python - 使用 Camelot 查找 PDF 尺寸

我正在使用 Camelot 阅读完整的 PDF，并从每个 PDF 中提取大约 112 个属性。

我使用表格区域来提取属性

问题是所有文档中相同属性的表格区域不是恒定的。有时我会在另一个文档中的 x 或 y 坐标下几个像素处找到相同的属性。

无论提取任何文档，有没有办法从同一区域获取确切的属性？

python pdf-extraction python-camelot

2019-01-14T06:32:43.933

0 投票

2 回答

2153 浏览

python - 从 PDF 文档中删除空格

我正在使用 Camelot-py 从几个 PDF 中读取和提取属性。我使用 table_areas 来提取一些属性，并且由于某些表单之间的 X 或 Y 坐标的偏差，我在设置正确的区域时遇到了困难。一些表格（示例 1）在顶部有最少的空格，而其他表格（示例 2）有更多的空格。这将 y 坐标移动了大约 10-15

样品 1

样品 2

有没有办法在运行时裁剪或统一它们？

python removing-whitespace pdf-extraction python-camelot

2019-01-28T13:00:23.350

问题标签 [pdf-extraction]

Reference