问题标签 [python-camelot]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

133 问题

0 投票

1 回答

1898 浏览

pdf-scraping - 使用 camelot 从 PDF 中提取表格数据时，没有从 PDF 中提取标题

我正在使用 camelot 进行表数据提取，但是标题没有被提取为 PDF 的一部分。

下面附上目标PDF链接和目标表在第3页和第4页，需要提取。

https://drive.google.com/file/d/1xniTIwpnNIdA_k4xvEARlVH97Lk-K2Yr/view?usp=sharing

其中一张表如下所示

我看过 camelot 文档，我认为问题与“检测短线”有关

https://camelot-py.readthedocs.io/en/master/user/advanced.html#detect-short-lines

但是无法通过调整line_size_scaling参数来解决问题。

请协助。

pdf-scraping python-camelot

2018-11-08T08:20:26.677

0 投票

3 回答

7075 浏览

python-3.x - Python Camelot无边框表格提取问题

我正在努力提取一些无边界表格，如下图所示，这些表格来自 pdf 文件。我已经安装了 python-camelot，如此处所示，并且仅适用于带边框的表格。请查看以下详细信息：

平台 - Linux-4.5.5-300.fc24.x86_64-x86_64-with-fedora-24-Twenty_Four

sys - Python 3.6.1（默认，2017 年 5 月 15 日，11:42:04）[GCC 6.3.1 20161221 (Red Hat 6.3.1-1)]

numpy - NumPy 1.15.4

cv2 - OpenCV 3.4.3

骆驼 - 骆驼 0.3.2 在此处输入图像描述

python-3.x python-camelot

2018-11-08T14:03:34.260

0 投票

1 回答

3122 浏览

python - 使用 Camelot 从此 PDF 中提取数据时未找到表并合并列文本

UserWarning: No tables found on page-1当我尝试从附加的 PDF 中提取表格时，我得到了一个。但是，当我查看提取的数据时，一些列文本被合并到一个列中。”</p>

我正在使用Camelot解析这些 PDF

重现步骤： camelot --output m27.csv --format csv stream m27.pdf

这是我试图解析的 PDF 链接：https ://github.com/tabulapdf/tabula-java/blob/master/src/test/resources/technology/tabula/m27.pdf

python pdf-parsing python-camelot

2018-11-09T18:39:46.487

0 投票

15 回答

21012 浏览

python - Python-camelot（安装时出现错误：GhostscriptNotFound）

我正在尝试使用 camelot 从 pdf 中提取表格数据，但出现以下错误。

代码：

错误：

GhostscriptNotFound：请确保 Ghostscript 已安装且在 PATH 环境变量中可用

我已经安装了 Ghostscript，并且可以在 PATH 环境变量中使用它。

请查看以下版本详细信息：

Windows-10-10.0.17134-SP0
Python 3.6.5 |Anaconda, Inc.| （默认，2018 年 3 月 29 日，13:32:41）[MSC v.1900 64 位 (AMD64)]
NumPy 1.14.3
开放CV 3.4.3
卡米洛特 0.3.2

请帮助解决此问题。

python python-camelot

2018-11-15T12:03:06.600

0 投票

2 回答

2583 浏览

python - Python-Camelot 提取空表

我正在使用 Camelot 通过以下命令提取 PDF 的多个部分。

当 PDF 实际包含这些区域中的数据时，这运行良好。但我不希望在每个解析的 PDF 中都有数据，有些返回的是空的。当返回的数据不是表格并且只有一列时，我收到以下错误。

和

我需要一种方法来提取所有 PDF 中的这些特定区域，但之后忽略空的区域。需要能够有序地使用提取的数据。

也欢迎任何其他建议

TIA

python pandas dataframe pdf-extraction python-camelot

2019-01-02T09:52:04.700

0 投票

2 回答

2069 浏览

python - 使用 Camelot 查找 PDF 尺寸

我正在使用 Camelot 阅读完整的 PDF，并从每个 PDF 中提取大约 112 个属性。

我使用表格区域来提取属性

问题是所有文档中相同属性的表格区域不是恒定的。有时我会在另一个文档中的 x 或 y 坐标下几个像素处找到相同的属性。

无论提取任何文档，有没有办法从同一区域获取确切的属性？

python pdf-extraction python-camelot

2019-01-14T06:32:43.933

0 投票

2 回答

2153 浏览

python - 从 PDF 文档中删除空格

我正在使用 Camelot-py 从几个 PDF 中读取和提取属性。我使用 table_areas 来提取一些属性，并且由于某些表单之间的 X 或 Y 坐标的偏差，我在设置正确的区域时遇到了困难。一些表格（示例 1）在顶部有最少的空格，而其他表格（示例 2）有更多的空格。这将 y 坐标移动了大约 10-15

样品 1