问题标签 [python-camelot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
46 浏览

python - 没有行时从pdf中提取表格-使用Python

当pdf中没有行来分隔行和列时,是否有任何Python包可以帮助我从pdf中提取表格?

我试过使用 Camelot,但这些是我能得到的最好结果。行没有正确分开......我的结果

作为参考,这是我试图从中提取的pdf:pdf

0 投票
1 回答
98 浏览

python - Pandas DataFrame 按列值组合行,其中 Date Rows 为 NULL

场景: 解析 PDF 银行对账单并转换为干净且格式化的 csv 文件。

我尝试过的: 我设法使用 camelot 库解析 pdf 文件(表格格式),但在格式化方面未能产生所需的结果。

代码:

我的结果: 在此处输入图像描述

所需_输出: 在此处输入图像描述

我想出的逻辑是将这些行向上移动我猜如果日期列是 NaN 则为 n-1 我不知道这个逻辑是否正确。谁能帮我正确解决这个问题?

我尝试了 pandas groupby 和聚合函数,但它只合并整个数据并删除 NaN 和重复日期,这是不合适的,因为每个条目都是必需的。

0 投票
1 回答
122 浏览

python - 如何在 Python 中从多个 PDF 中提取特定表格

我有一个通过网络抓取下载的 PDF 文件的数据库。我可以从这些 PDF 文件中提取表格并在 jupyter notebook 中将它们可视化,如下所示:

通过这种方式,我得到了数据库中两个 PDF 文件的结果,如下所示。

PDF1PDF2

现在我想问我如何才能从包含例如“电压”和“电流”信息的表中获取特定数据。更具体地说,我想提取用户定义或目标信息并使用此值制作图表,而不是整体打印它们。

提前致谢。

0 投票
1 回答
102 浏览

python - Camelot PDF 无法剥离文本

我有这个 pdf,我正在尝试处理它的第一张桌子。

当雇主 (EMPREGADOR) 的名称达到两行时,就会出现问题。

在此处输入图像描述

我正在使用以下命令尝试正确剥离数据:

但结果如下:

尝试阅读文档,但没有找到任何可以帮助我正确获取雇主 (EMPREGADOR) 数据的内容(在本例中为 ABC ABC ABC LTDA)。

这是一个问题,因为雇主名称的长度可能会变化到 1、2、3 行甚至更多行,从而在 DF 中造成混乱,因此难以编码。

有什么建议吗?

0 投票
0 回答
225 浏览

python-3.x - 如何使用 Camelot 在 PDF 中搜索文本并获取表格区域?

我正在使用 Camelot 从 PDF 中提取表格数据。Camelot 工作得很好,但我有一个包含几张桌子的页面,我只需要一张。我想根据正则表达式搜索找到那个。

如果我运行指定表格区域的代码,它会找到表格。(如果我不指定参数,它假定整个页面是一个表)。

蓝色框是文本。我只关心红框中的文本表。

在此处输入图像描述

我的问题:鉴于我知道我正在搜索的文本,我如何搜索并获取大致的表格区域,然后将其传递给 Camelot?我已经有工作代码来搜索正则表达式(PyMuPDF)。

由于 Camelot 返回文本,我不得不认为有一种方法可以知道框坐标,但我无法从查看他们的文档中看到它,这里是:

https://camelot-py.readthedocs.io/en/master/api.html#lower-level-classes

我确定有一个 OpenCV 解决方案,但如果可能的话,我想先使用 Camelot。感谢任何帮助。谢谢你。

0 投票
0 回答
61 浏览

python - 使用 Python Camelot 从 PDF 中提取文本框内容

在此处输入图像描述

我有一张 pdf 格式的表格,我想使用 python - camelot 阅读它。

但是使用 camelot iam 只能提取框内的内容。但我也想把内容放在左边(盒子外面)。

请问有什么帮助吗?

0 投票
1 回答
75 浏览

pandas - 从 PDF 中读取表格并将其转换为 Pandas Dataframe

我正在尝试从 pdf 中提取表格数据并将它们存储为数据框。但是表格数据的格式不正确。

下面是我得到的数据框:

在此处输入图像描述

但我希望该数据框采用以下格式。

在此处输入图像描述

请帮助我如何编写通用代码才能做到这一点。

0 投票
0 回答
130 浏览

pdf - 使 Camelot 更快的方法

我一直在使用 camelot 从 PDF 页面中提取表格。它运作良好。但是,从 68 页的 pdf 中提取所有表格大约需要 5 分钟。将来,我将需要从 pdf 中提取超过 1000 页的表格。我想这将需要很多时间。

有没有一种方法可以让 Camelot 流程更快或任何合适的替代方案?

0 投票
1 回答
307 浏览

python - Ghostscript 未正确安装 - find_library('gs') 返回无

我正在尝试安装 camelot,但由于某种原因,Ghostscript 无法正确安装,所以RuntimeError: Please make sure that Ghostscript is installed每当我尝试使用 read_pdf 时,我都会不断收到错误消息。

当我去检查是否使用 安装了 Ghostscript 时ctypes.util.find_library,它找不到它。我已经在终端使用自制软件安装了 Ghostscript(Warning: ghostscript 9.54.0 is already installed and up-to-date.当我第二次尝试安装时,让我非常确定它已安装)。

camelot 文档告诉我出了点问题,但没有具体说明是什么。

有没有人能够阐明我的错误在哪里?

0 投票
1 回答
58 浏览

python - Camelot 无法提取整个表

我使用 Camelot 从 PDF 中提取表格信息,我使用 ocrmypdf(500dpi) 将其从扫描转换为可搜索。

Camelot 似乎能够识别表并提取表中的大部分数据,但似乎无法提取下半部分。本质上,它看到了表格的上半部分,但似乎无法将文本与下半部分分开。

这是相关 PDF 中的表格:

PDF 中的表格

但是当我使用 Camelot 的可视化调试方法时,我要求它向我展示它将提取的单词,它似乎将表格的底部识别为一个巨大的块

表的可视化调试

您可以在此处提供的有关改进 Camelots“视力”的任何指导都会有所帮助。