问题标签 [python-camelot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf-scraping - 使用 camelot 从 PDF 中提取表格数据时,没有从 PDF 中提取标题
我正在使用 camelot 进行表数据提取,但是标题没有被提取为 PDF 的一部分。
下面附上目标PDF链接和目标表在第3页和第4页,需要提取。
https://drive.google.com/file/d/1xniTIwpnNIdA_k4xvEARlVH97Lk-K2Yr/view?usp=sharing
我看过 camelot 文档,我认为问题与“检测短线”有关
https://camelot-py.readthedocs.io/en/master/user/advanced.html#detect-short-lines
但是无法通过调整line_size_scaling参数来解决问题。
请协助。
python-3.x - Python Camelot无边框表格提取问题
我正在努力提取一些无边界表格,如下图所示,这些表格来自 pdf 文件。我已经安装了 python-camelot,如此处所示,并且仅适用于带边框的表格。请查看以下详细信息:
平台 - Linux-4.5.5-300.fc24.x86_64-x86_64-with-fedora-24-Twenty_Four
sys - Python 3.6.1(默认,2017 年 5 月 15 日,11:42:04)[GCC 6.3.1 20161221 (Red Hat 6.3.1-1)]
numpy - NumPy 1.15.4
cv2 - OpenCV 3.4.3
骆驼 - 骆驼 0.3.2
python - 使用 Camelot 从此 PDF 中提取数据时未找到表并合并列文本
UserWarning: No tables found on page-1
当我尝试从附加的 PDF 中提取表格时,我得到了一个。但是,当我查看提取的数据时,一些列文本被合并到一个列中。”</p>
我正在使用Camelot解析这些 PDF
重现步骤: camelot --output m27.csv --format csv stream m27.pdf
这是我试图解析的 PDF 链接:https ://github.com/tabulapdf/tabula-java/blob/master/src/test/resources/technology/tabula/m27.pdf
python - Python-camelot(安装时出现错误:GhostscriptNotFound)
我正在尝试使用 camelot 从 pdf 中提取表格数据,但出现以下错误。
代码:
错误:
GhostscriptNotFound:请确保 Ghostscript 已安装且在 PATH 环境变量中可用
我已经安装了 Ghostscript,并且可以在 PATH 环境变量中使用它。
请查看以下版本详细信息:
- Windows-10-10.0.17134-SP0
- Python 3.6.5 |Anaconda, Inc.| (默认,2018 年 3 月 29 日,13:32:41)[MSC v.1900 64 位 (AMD64)]
- NumPy 1.14.3
- 开放CV 3.4.3
- 卡米洛特 0.3.2
请帮助解决此问题。
python - Python-Camelot 提取空表
我正在使用 Camelot 通过以下命令提取 PDF 的多个部分。
当 PDF 实际包含这些区域中的数据时,这运行良好。但我不希望在每个解析的 PDF 中都有数据,有些返回的是空的。当返回的数据不是表格并且只有一列时,我收到以下错误。
和
我需要一种方法来提取所有 PDF 中的这些特定区域,但之后忽略空的区域。需要能够有序地使用提取的数据。
也欢迎任何其他建议
TIA
python - 使用 Camelot 查找 PDF 尺寸
我正在使用 Camelot 阅读完整的 PDF,并从每个 PDF 中提取大约 112 个属性。
我使用表格区域来提取属性
问题是所有文档中相同属性的表格区域不是恒定的。有时我会在另一个文档中的 x 或 y 坐标下几个像素处找到相同的属性。
无论提取任何文档,有没有办法从同一区域获取确切的属性?
python - 无法识别表
如果表格分布在多个页面上并且水平边框被剪切,因此我无法使用表格将 PDF 文件中的表格作为数据框读取,因此它不会被识别为表格。我该如何解决这个问题?我可以仅使用垂直线检测表格吗?
也尝试了新包 camelot,但再次无法阅读该列。
我只能在示例 pdf 中检测到一个表,未检测到 2x2 表
示例 pdf 链接:https ://onedrive.live.com/?id=690704CAD1449D85%21105&cid=690704CAD1449D85