问题标签 [python-camelot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Camelot PDF 无法剥离文本
我有这个 pdf,我正在尝试处理它的第一张桌子。
当雇主 (EMPREGADOR) 的名称达到两行时,就会出现问题。
我正在使用以下命令尝试正确剥离数据:
但结果如下:
尝试阅读文档,但没有找到任何可以帮助我正确获取雇主 (EMPREGADOR) 数据的内容(在本例中为 ABC ABC ABC LTDA)。
这是一个问题,因为雇主名称的长度可能会变化到 1、2、3 行甚至更多行,从而在 DF 中造成混乱,因此难以编码。
有什么建议吗?
python-3.x - 如何使用 Camelot 在 PDF 中搜索文本并获取表格区域?
我正在使用 Camelot 从 PDF 中提取表格数据。Camelot 工作得很好,但我有一个包含几张桌子的页面,我只需要一张。我想根据正则表达式搜索找到那个。
如果我运行指定表格区域的代码,它会找到表格。(如果我不指定参数,它假定整个页面是一个表)。
蓝色框是文本。我只关心红框中的文本表。
我的问题:鉴于我知道我正在搜索的文本,我如何搜索并获取大致的表格区域,然后将其传递给 Camelot?我已经有工作代码来搜索正则表达式(PyMuPDF)。
由于 Camelot 返回文本,我不得不认为有一种方法可以知道框坐标,但我无法从查看他们的文档中看到它,这里是:
https://camelot-py.readthedocs.io/en/master/api.html#lower-level-classes
我确定有一个 OpenCV 解决方案,但如果可能的话,我想先使用 Camelot。感谢任何帮助。谢谢你。
python - 使用 Python Camelot 从 PDF 中提取文本框内容
我有一张 pdf 格式的表格,我想使用 python - camelot 阅读它。
但是使用 camelot iam 只能提取框内的内容。但我也想把内容放在左边(盒子外面)。
请问有什么帮助吗?
pdf - 使 Camelot 更快的方法
我一直在使用 camelot 从 PDF 页面中提取表格。它运作良好。但是,从 68 页的 pdf 中提取所有表格大约需要 5 分钟。将来,我将需要从 pdf 中提取超过 1000 页的表格。我想这将需要很多时间。
有没有一种方法可以让 Camelot 流程更快或任何合适的替代方案?
python - Ghostscript 未正确安装 - find_library('gs') 返回无
我正在尝试安装 camelot,但由于某种原因,Ghostscript 无法正确安装,所以RuntimeError: Please make sure that Ghostscript is installed
每当我尝试使用 read_pdf 时,我都会不断收到错误消息。
当我去检查是否使用 安装了 Ghostscript 时ctypes.util.find_library
,它找不到它。我已经在终端使用自制软件安装了 Ghostscript(Warning: ghostscript 9.54.0 is already installed and up-to-date.
当我第二次尝试安装时,让我非常确定它已安装)。
camelot 文档告诉我出了点问题,但没有具体说明是什么。
有没有人能够阐明我的错误在哪里?