问题标签 [python-camelot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1898 浏览

pdf-scraping - 使用 camelot 从 PDF 中提取表格数据时,没有从 PDF 中提取标题

我正在使用 camelot 进行表数据提取,但是标题没有被提取为 PDF 的一部分。

下面附上目标PDF链接和目标表在第3页和第4页,需要提取。

https://drive.google.com/file/d/1xniTIwpnNIdA_k4xvEARlVH97Lk-K2Yr/view?usp=sharing

其中一张表如下所示 在此处输入图像描述

我看过 camelot 文档,我认为问题与“检测短线”有关

https://camelot-py.readthedocs.io/en/master/user/advanced.html#detect-short-lines

但是无法通过调整line_size_scaling参数来解决问题。

请协助。

0 投票
3 回答
7075 浏览

python-3.x - Python Camelot无边框表格提取问题

我正在努力提取一些无边界表格,如下图所示,这些表格来自 pdf 文件。我已经安装了 python-camelot,如此处所示并且仅适用于带边框的表格。请查看以下详细信息:

平台 - Linux-4.5.5-300.fc24.x86_64-x86_64-with-fedora-24-Twenty_Four

sys - Python 3.6.1(默认,2017 年 5 月 15 日,11:42:04)[GCC 6.3.1 20161221 (Red Hat 6.3.1-1)]

numpy - NumPy 1.15.4

cv2 - OpenCV 3.4.3

骆驼 - 骆驼 0.3.2在此处输入图像描述

0 投票
1 回答
3122 浏览

python - 使用 Camelot 从此 PDF 中提取数据时未找到表并合并列文本

UserWarning: No tables found on page-1当我尝试从附加的 PDF 中提取表格时,我得到了一个。但是,当我查看提取的数据时,一些列文本被合并到一个列中。”</p>

在此处输入图像描述

我正在使用Camelot解析这些 PDF

重现步骤: camelot --output m27.csv --format csv stream m27.pdf

这是我试图解析的 PDF 链接:https ://github.com/tabulapdf/tabula-java/blob/master/src/test/resources/technology/tabula/m27.pdf

0 投票
15 回答
21012 浏览

python - Python-camelot(安装时出现错误:GhostscriptNotFound)

我正在尝试使用 camelot 从 pdf 中提取表格数据,但出现以下错误。

代码:

错误:

GhostscriptNotFound:请确保 Ghostscript 已安装且在 PATH 环境变量中可用

我已经安装了 Ghostscript,并且可以在 PATH 环境变量中使用它。

请查看以下版本详细信息:

  • Windows-10-10.0.17134-SP0
  • Python 3.6.5 |Anaconda, Inc.| (默认,2018 年 3 月 29 日,13:32:41)[MSC v.1900 64 位 (AMD64)]
  • NumPy 1.14.3
  • 开放CV 3.4.3
  • 卡米洛特 0.3.2

请帮助解决此问题。

0 投票
2 回答
2583 浏览

python - Python-Camelot 提取空表

我正在使用 Camelot 通过以下命令提取 PDF 的多个部分。

当 PDF 实际包含这些区域中的数据时,这运行良好。但我不希望在每个解析的 PDF 中都有数据,有些返回的是空的。当返回的数据不是表格并且只有一列时,我收到以下错误。

我需要一种方法来提取所有 PDF 中的这些特定区域,但之后忽略空的区域。需要能够有序地使用提取的数据。

也欢迎任何其他建议

TIA

0 投票
2 回答
2069 浏览

python - 使用 Camelot 查找 PDF 尺寸

我正在使用 Camelot 阅读完整的 PDF,并从每个 PDF 中提取大约 112 个属性。

我使用表格区域来提取属性

问题是所有文档中相同属性的表格区域不是恒定的。有时我会在另一个文档中的 x 或 y 坐标下几个像素处找到相同的属性。

无论提取任何文档,有没有办法从同一区域获取确切的属性?

0 投票
2 回答
2153 浏览

python - 从 PDF 文档中删除空格

我正在使用 Camelot-py 从几个 PDF 中读取和提取属性。我使用 table_areas 来提取一些属性,并且由于某些表单之间的 X 或 Y 坐标的偏差,我在设置正确的区域时遇到了困难。一些表格(示例 1)在顶部有最少的空格,而其他表格(示例 2)有更多的空格。这将 y 坐标移动了大约 10-15

样品 1 在此处输入图像描述

样品 2 在此处输入图像描述

有没有办法在运行时裁剪或统一它们?

0 投票
2 回答
3244 浏览

python - 无法使用 camelot 阅读 pdf

我曾经camelot读过一个pdf文件,但我只能得到它的一部分。

如何阅读所有页面?

结果df

我还尝试了表格,其中包括更多结果,但仍然不是全部。

0 投票
3 回答
1270 浏览

pdf - 如何从历史 PDF 中提取表格?

我需要从此文件中从类似格式的表中提取数据。有一些 OCR 错误,但我有一个自动化的方法来纠正它们。

我努力了:

  • ABBYY Finereader 表格检测。
  • 表格提取
  • Camelot 表提取
  • 自定义python代码

问题:广告工具在检测桌子边缘方面非常糟糕。这些表格遵循类似的一般格式,但每次扫描的对齐方式略有不同,因此硬编码寄宿生也不起作用。

问题:你们知道检测表格从哪里开始然后应用几个模板之一的好方法吗?

非常感谢此类工作的任何其他提示。

0 投票
1 回答
714 浏览

python - 无法识别表

如果表格分布在多个页面上并且水平边框被剪切,因此我无法使用表格将 PDF 文件中的表格作为数据框读取,因此它不会被识别为表格。我该如何解决这个问题?我可以仅使用垂直线检测表格吗?

也尝试了新包 camelot,但再次无法阅读该列。

我只能在示例 pdf 中检测到一个表,未检测到 2x2 表

示例 pdf 链接:https ://onedrive.live.com/?id=690704CAD1449D85%21105&cid=690704CAD1449D85