问题标签 [python-camelot]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

133 问题

0 投票

0 回答

46 浏览

python - 没有行时从pdf中提取表格-使用Python

当pdf中没有行来分隔行和列时，是否有任何Python包可以帮助我从pdf中提取表格？

我试过使用 Camelot，但这些是我能得到的最好结果。行没有正确分开......我的结果

作为参考，这是我试图从中提取的pdf：pdf

python python-camelot

2021-04-26T13:37:49.163

0 投票

1 回答

98 浏览

python - Pandas DataFrame 按列值组合行，其中 Date Rows 为 NULL

场景： 解析 PDF 银行对账单并转换为干净且格式化的 csv 文件。

我尝试过的： 我设法使用 camelot 库解析 pdf 文件（表格格式），但在格式化方面未能产生所需的结果。

代码：

我的结果：

所需_输出：

我想出的逻辑是将这些行向上移动我猜如果日期列是 NaN 则为 n-1 我不知道这个逻辑是否正确。谁能帮我正确解决这个问题？

我尝试了 pandas groupby 和聚合函数，但它只合并整个数据并删除 NaN 和重复日期，这是不合适的，因为每个条目都是必需的。

2021-05-01T16:26:30.770

0 投票

1 回答

122 浏览

python - 如何在 Python 中从多个 PDF 中提取特定表格

我有一个通过网络抓取下载的 PDF 文件的数据库。我可以从这些 PDF 文件中提取表格并在 jupyter notebook 中将它们可视化，如下所示：

通过这种方式，我得到了数据库中两个 PDF 文件的结果，如下所示。

（PDF1，PDF2）

现在我想问我如何才能从包含例如“电压”和“电流”信息的表中获取特定数据。更具体地说，我想提取用户定义或目标信息并使用此值制作图表，而不是整体打印它们。

提前致谢。

python data-science extract python-camelot

2021-05-10T14:19:01.970

0 投票

1 回答

102 浏览

python - Camelot PDF 无法剥离文本

我有这个 pdf，我正在尝试处理它的第一张桌子。

当雇主 (EMPREGADOR) 的名称达到两行时，就会出现问题。

我正在使用以下命令尝试正确剥离数据：

但结果如下：

尝试阅读文档，但没有找到任何可以帮助我正确获取雇主 (EMPREGADOR) 数据的内容（在本例中为 ABC ABC ABC LTDA）。

这是一个问题，因为雇主名称的长度可能会变化到 1、2、3 行甚至更多行，从而在 DF 中造成混乱，因此难以编码。

有什么建议吗？

python pandas dataframe pdf python-camelot

2021-05-12T15:24:03.903

0 投票

0 回答

225 浏览

python-3.x - 如何使用 Camelot 在 PDF 中搜索文本并获取表格区域？

我正在使用 Camelot 从 PDF 中提取表格数据。Camelot 工作得很好，但我有一个包含几张桌子的页面，我只需要一张。我想根据正则表达式搜索找到那个。

如果我运行指定表格区域的代码，它会找到表格。（如果我不指定参数，它假定整个页面是一个表）。

蓝色框是文本。我只关心红框中的文本表。

我的问题：鉴于我知道我正在搜索的文本，我如何搜索并获取大致的表格区域，然后将其传递给 Camelot？我已经有工作代码来搜索正则表达式（PyMuPDF）。

由于 Camelot 返回文本，我不得不认为有一种方法可以知道框坐标，但我无法从查看他们的文档中看到它，这里是：

https://camelot-py.readthedocs.io/en/master/api.html#lower-level-classes

我确定有一个 OpenCV 解决方案，但如果可能的话，我想先使用 Camelot。感谢任何帮助。谢谢你。

python-3.x pdf detection python-camelot

2021-05-14T17:49:21.907

0 投票

0 回答

61 浏览

python - 使用 Python Camelot 从 PDF 中提取文本框内容

在此处输入图像描述

我有一张 pdf 格式的表格，我想使用 python - camelot 阅读它。

但是使用 camelot iam 只能提取框内的内容。但我也想把内容放在左边（盒子外面）。

请问有什么帮助吗？

python pdf python-camelot

2021-05-28T10:25:44.010

0 投票

1 回答

75 浏览

pandas - 从 PDF 中读取表格并将其转换为 Pandas Dataframe

我正在尝试从 pdf 中提取表格数据并将它们存储为数据框。但是表格数据的格式不正确。

下面是我得到的数据框：

但我希望该数据框采用以下格式。

请帮助我如何编写通用代码才能做到这一点。

pandas dataframe text-mining python-camelot

2021-06-10T17:56:19.193

0 投票

0 回答

130 浏览

pdf - 使 Camelot 更快的方法

我一直在使用 camelot 从 PDF 页面中提取表格。它运作良好。但是，从 68 页的 pdf 中提取所有表格大约需要 5 分钟。将来，我将需要从 pdf 中提取超过 1000 页的表格。我想这将需要很多时间。

有没有一种方法可以让 Camelot 流程更快或任何合适的替代方案？

pdf python-camelot

2021-06-16T05:09:13.007

0 投票

1 回答

307 浏览

python - Ghostscript 未正确安装 - find_library('gs') 返回无

我正在尝试安装 camelot，但由于某种原因，Ghostscript 无法正确安装，所以RuntimeError: Please make sure that Ghostscript is installed每当我尝试使用 read_pdf 时，我都会不断收到错误消息。

当我去检查是否使用安装了 Ghostscript 时ctypes.util.find_library，它找不到它。我已经在终端使用自制软件安装了 Ghostscript（Warning: ghostscript 9.54.0 is already installed and up-to-date.当我第二次尝试安装时，让我非常确定它已安装）。

camelot 文档告诉我出了点问题，但没有具体说明是什么。

有没有人能够阐明我的错误在哪里？

python macos installation ghostscript python-camelot

2021-06-18T01:57:41.807

0 投票

1 回答

58 浏览

python - Camelot 无法提取整个表

我使用 Camelot 从 PDF 中提取表格信息，我使用 ocrmypdf(500dpi) 将其从扫描转换为可搜索。

Camelot 似乎能够识别表并提取表中的大部分数据，但似乎无法提取下半部分。本质上，它看到了表格的上半部分，但似乎无法将文本与下半部分分开。

这是相关 PDF 中的表格：

但是当我使用 Camelot 的可视化调试方法时，我要求它向我展示它将提取的单词，它似乎将表格的底部识别为一个巨大的块

您可以在此处提供的有关改进 Camelots“视力”的任何指导都会有所帮助。

python pdf-extraction python-camelot pdftables ocrmypdf

2021-06-26T14:58:16.663

1 2 3 4 5 6 7 8 9 10

问题标签 [python-camelot]

Reference