问题标签 [python-camelot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1936 浏览

python-camelot - 如何找到骆驼的表格区域

正如 camelot 中提到的,我们可以从特定区域提取表,例如:

但是我怎样才能为我的 pdf 找到这些区域。

0 投票
2 回答
2430 浏览

python - 使用 Camelot 解析 Python PDF 并提取表格标题

Camelot 是一个很棒的 Python 库,可以从 pdf 文件中提取表格作为数据框。但是,我正在寻找一种解决方案,该解决方案还可以返回写在表格正上方的表格描述文本。

我用于从 pdf 中提取表格的代码是这样的:

我想提取表格上方的文字,即THE PARTICULARS,如下图所示。

对我来说最好的方法是什么?感谢任何帮助。谢谢你

在此处输入图像描述

0 投票
2 回答
3091 浏览

python - 如何使用 python 从 pdf 文件中使用 camelot 提取表名和表?

我正在尝试使用 python 中的 camelot 从 pdf 文件中提取表和表名。尽管我知道如何使用 camelot 提取表(这非常简单),但我仍在努力寻找有关如何提取表名的任何帮助。目的是提取此信息并显示表格及其名称的视觉效果,以便用户从列表中选择相关表格。

我尝试过提取表格,然后也从 pdf 中提取文本。我在这两个方面都很成功,但在将表名连接到表方面却没有。

预期结果是一个表格和 pdf 文件中所述的表格名称。例如:pdf 名称第 x 页上的表格:Table 1. Blah Blah blah '''Table'''

0 投票
2 回答
1762 浏览

pdf - 从没有垂直线的PDF表格中提取表格

我想从如下图所示的 PDF 文件中提取表格: 在此处输入图像描述

PDF 文件包含文本,不是扫描图像。我一直在尝试使用Camelot,但没有成功。lattice风味不起作用,因为没有垂直线并且风味stream无法正确分隔行。我玩过,row_tol但由于行的高度不同,它不适用于所有行。

有没有办法使用该lattice方法但考虑垂直线的列分隔符?还是有另一种提取表格的方法?

0 投票
0 回答
143 浏览

python-3.x - 解析 PDF 时对 Devanagiri 字体的错误解码

我正在使用Camelot解析印度不同州发布的预算文件。解析进行得很好,但梵文(印地语、马拉地语等语言)的解析输出与文档中的不同。输入文件在这个链接上,解析后的输出文件在这个链接上。可以看出,梵文字符与输入文件中的字符不对应。MWE 如下所示。

0 投票
6 回答
14577 浏览

python - AttributeError:模块“camelot”没有属性“read_pdf”

我正在尝试使用 camelot 从 pdf 中提取表格,但出现此属性错误。能否请你帮忙?

----> 1 pdf = camelot.read_pdf("Gordian.pdf") 中的 AttributeError Traceback (最近一次调用最后一次)

AttributeError:模块“camelot”没有属性“read_pdf”

0 投票
1 回答
269 浏览

python - 在自定义 IDE 中找不到 Python 导入 Camelot 模块

我正在使用自定义脚本环境并尝试使用Camelot for Python v. 3.7.4 转换 pdf 文件。

当我从 Windows 的命令行运行脚本时,它按预期工作。当我从自定义 IDE 内部运行脚本时,我收到与该行相关的错误import Camelot,即“找不到 Camelot 模块”。

我确实知道自定义 IDE 有一个文件夹,我应该在其中放置 .py 文件以进行导入。问题是我可以在我的文件结构中为 Camelot 找到的唯一文件是一个camelot.exe文件。有谁知道该import Camelot命令实际导入的 .py 文件是什么?

0 投票
2 回答
987 浏览

python - camelot python;OSError:异常:访问冲突写入 0x00000080

我试图用 Camelot 从 PDF 文件中提取表格。

这是我的代码:

运行此脚本时出现错误,如下所示:

我该如何解决这个问题,或者还有其他方法可以从 PDF 中获取表格吗?

编辑:相同的脚本在 jupyter notebook 中运行良好,但在 pycharm 中无法运行。

0 投票
0 回答
70 浏览

python - 使用 tikzplotlib 时出现 PermissionError

我正在调查 PDF 文件,并试图显示创建者将文本作为图像嵌入的位置。

为此,我使用 Camelot 和它的 Plot 功能。然后我尝试用 TikZ 将此图绘制到 Latex 中。

然而,遗憾的是我最近不得不将操作系统切换到 Windows,现在我有点迷路了。我收到错误“PermissionError”:[WinError32]。

我已经关闭了所有可能正在同步的云解决方案。我还重新启动了 PC,然后在第一次尝试时,如果我评论其余代码,我可以提取表,但随后我再次收到错误消息。

0 投票
1 回答
2466 浏览

python - Camelot Pdf提取失败解析

我遇到了 Camelot 库的问题

我从 PDF 中提取数据,我的代码在前 23 页运行“正常”,但在这种情况下,它无法解析文本/表格结尾

我想问题是字符串很长到达表格边框

也尝试过“流”,但结果最差

PDF 源数据

pdf

PDF 输出布局

布局

我解析的输出就像

期望的输出应该是

我的第一个可以在上一页正常工作的代码是

从网站 Camelot Doc https://camelot-py.readthedocs.io/en/master/api.html我在 pdf 解析器上得到了可能的配置。

然后我遇到了这个问题,试图用更多的参数来解决“玩”,但没有找到赢家

我可以得到一些关于参数的建议以避免这种情况吗?

谢谢

编辑1:PDF来源:https ://www.siom.it/images/catalogo-motorini-alter.pdf (第24页)