问题标签 [python-camelot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-camelot - 如何找到骆驼的表格区域
正如 camelot 中提到的,我们可以从特定区域提取表,例如:
但是我怎样才能为我的 pdf 找到这些区域。
python - 如何使用 python 从 pdf 文件中使用 camelot 提取表名和表?
我正在尝试使用 python 中的 camelot 从 pdf 文件中提取表和表名。尽管我知道如何使用 camelot 提取表(这非常简单),但我仍在努力寻找有关如何提取表名的任何帮助。目的是提取此信息并显示表格及其名称的视觉效果,以便用户从列表中选择相关表格。
我尝试过提取表格,然后也从 pdf 中提取文本。我在这两个方面都很成功,但在将表名连接到表方面却没有。
预期结果是一个表格和 pdf 文件中所述的表格名称。例如:pdf 名称第 x 页上的表格:Table 1. Blah Blah blah '''Table'''
pdf - 从没有垂直线的PDF表格中提取表格
PDF 文件包含文本,不是扫描图像。我一直在尝试使用Camelot,但没有成功。lattice
风味不起作用,因为没有垂直线并且风味stream
无法正确分隔行。我玩过,row_tol
但由于行的高度不同,它不适用于所有行。
有没有办法使用该lattice
方法但考虑垂直线的列分隔符?还是有另一种提取表格的方法?
python - AttributeError:模块“camelot”没有属性“read_pdf”
我正在尝试使用 camelot 从 pdf 中提取表格,但出现此属性错误。能否请你帮忙?
----> 1 pdf = camelot.read_pdf("Gordian.pdf") 中的 AttributeError Traceback (最近一次调用最后一次)
AttributeError:模块“camelot”没有属性“read_pdf”
python - 在自定义 IDE 中找不到 Python 导入 Camelot 模块
我正在使用自定义脚本环境并尝试使用Camelot for Python v. 3.7.4 转换 pdf 文件。
当我从 Windows 的命令行运行脚本时,它按预期工作。当我从自定义 IDE 内部运行脚本时,我收到与该行相关的错误import Camelot
,即“找不到 Camelot 模块”。
我确实知道自定义 IDE 有一个文件夹,我应该在其中放置 .py 文件以进行导入。问题是我可以在我的文件结构中为 Camelot 找到的唯一文件是一个camelot.exe
文件。有谁知道该import Camelot
命令实际导入的 .py 文件是什么?
python - camelot python;OSError:异常:访问冲突写入 0x00000080
我试图用 Camelot 从 PDF 文件中提取表格。
这是我的代码:
运行此脚本时出现错误,如下所示:
我该如何解决这个问题,或者还有其他方法可以从 PDF 中获取表格吗?
编辑:相同的脚本在 jupyter notebook 中运行良好,但在 pycharm 中无法运行。
python - 使用 tikzplotlib 时出现 PermissionError
我正在调查 PDF 文件,并试图显示创建者将文本作为图像嵌入的位置。
为此,我使用 Camelot 和它的 Plot 功能。然后我尝试用 TikZ 将此图绘制到 Latex 中。
然而,遗憾的是我最近不得不将操作系统切换到 Windows,现在我有点迷路了。我收到错误“PermissionError”:[WinError32]。
我已经关闭了所有可能正在同步的云解决方案。我还重新启动了 PC,然后在第一次尝试时,如果我评论其余代码,我可以提取表,但随后我再次收到错误消息。
python - Camelot Pdf提取失败解析
我遇到了 Camelot 库的问题
我从 PDF 中提取数据,我的代码在前 23 页运行“正常”,但在这种情况下,它无法解析文本/表格结尾
我想问题是字符串很长到达表格边框
也尝试过“流”,但结果最差
PDF 源数据
PDF 输出布局
我解析的输出就像
期望的输出应该是
我的第一个可以在上一页正常工作的代码是
从网站 Camelot Doc https://camelot-py.readthedocs.io/en/master/api.html我在 pdf 解析器上得到了可能的配置。
然后我遇到了这个问题,试图用更多的参数来解决“玩”,但没有找到赢家
我可以得到一些关于参数的建议以避免这种情况吗?
谢谢
编辑1:PDF来源:https ://www.siom.it/images/catalogo-motorini-alter.pdf (第24页)