问题标签 [python-camelot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
98 浏览

python - Python - 使用 camelot 以相反的顺序读取 PDF 到 excel

我正在使用库 camelot 来阅读 PDF 并使用 Python 导出为 excel。我尝试了两组 PDF 表格。对于一组表格,它可以完美运行。对于另一组 PDF 表单,数字以相反的顺序出现。有谁知道是什么原因导致它以及如何修复它,以便数字处于正常顺序。

以下是 PDF 中的内容和 Camelot 中的内容

这是 PDF 的链接: https ://drive.google.com/file/d/1AOo6a8eBt3-v_UU_OT2p99p3TeW-kk8t/view?usp=sharing 。

这是代码的主要部分:

0 投票
1 回答
1112 浏览

python-3.x - 为什么总是“模块'xxx'没有属性'xxx'”?

我正在使用 pycharm 专业版,今天困扰我的是,我调用的许多模块似乎都不起作用,例如 plotly、tabula-py 和 camelot。

从下面的附图中,您可以看到,我什至在虚拟环境中工作,并且刚刚做了 pip install camelot。

例如,现在我尝试导入 camelot 和 read_pdf。出现错误,并显示“没有名为“camelot”的模块。

我尝试了 pip remove,然后再次 pip install;我也试过 pip3 安装,出现了类似的错误,说没有这样的模块或属性。

我的pycharm有什么问题?以及如何解决? 米 顺便说一句,在情节的情况下。我尝试使用 Terminal > jupyter notebook 打开它,然后运行代码,它工作。

0 投票
1 回答
1980 浏览

python - 如何使用 python-camelot 从同一目录中的多个 PDF 中提取数据?

我正在尝试从多个 pdf 中的多个表中提取数据并将其保存为 csv 格式。我做了研究,发现 python-camelot 是一个很好的提取工具。我试过了,它在单个 pdf 上工作得很好。但是,我有超过 50 个相同格式的 PDF,所以我决定使用 For 循环遍历所有文件,但它不起作用,并且我得到一个错误文件在目录中找不到。你能帮忙吗?这是代码:

0 投票
1 回答
1780 浏览

python - Camelot-py 没有在一行中检测到两行文本

使用 Camelot-py 从 .PDF 中抓取表格数据,它不会拾取堆叠的文本行(请参阅下面的第 9 行和第 10 行)

1 到 14

第 9 行和第 10 行没有文字说明。

https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-table-areas

这是我拥有的 .ipynb 格式的代码。第一个块用于按预期提取的第一个表,第二个用于第 9 页。

桌子

使用 MatPlotLib,我可以看到 Camelot 正确检测了第 9 页的表格区域/网格。

绘图表区域

绘图网格

这是 PDF 的 Google Drive 链接

通话报告 PDF

任何见解将不胜感激。

0 投票
1 回答
362 浏览

python - Python Camelot - 导出文件而不附加附加到文件名的附加字符串

Python 3.7 和 Camelot 0.7.3。目前,Camelot 导出转换后的文件,并在文件名后附加了“ page-- table- ” - 我们的应用程序有非常具体的文件名要求,我正在尝试导出文件而不在文件名后附加额外的字符串. 这可能吗?该文档没有提及有关如何解决此问题的任何内容。

0 投票
0 回答
48 浏览

python - Python Camelot - 将一个 PDF 文件导出为一个转换后的文件

Python 3.7 和 Camelot 0.7.3。

默认情况下,Camelot 会为 pdf 文件的每一页导出单独的转换文件。我需要它以便将一个 pdf 文件导出到一个转换后的文件(我们使用 HTML 转换),无论 pdf 文件有多少页。文档不涵盖这种情况。有没有办法在不使用的情况下实现这一点compress=true?zip 文件在我们的应用程序中不起作用。

0 投票
2 回答
404 浏览

cv2 - Python Camelot 模块无法离线工作

我在没有互联网连接的计算机上安装了适用于 python 3.7 的 Camelot 模块,安装了依赖项(tkinter 和 ghostscript)。

当我在 jupyter notebook 中尝试“import camelot”时,出现错误“没有名为 cv2 的模块”。我找不到单独下载的 cv2 模块链接。

我怎么解决这个问题?

0 投票
1 回答
2927 浏览

python - 如何在 Python 中安装 Camelot 包?

我需要将表格 PDF 转换为 CSV。我尝试了 tabula、pdfminer 等所有东西......但似乎没有什么能给我想要的输出。

我遇到了 Camelot,想试一试,但无法在 Anaconda 上安装它。我正在尝试,conda install -c conda-forge camelot-py但它似乎没有返回控制台控制。

我该如何进一步处理?

0 投票
0 回答
270 浏览

ghostscript - GhostscriptError:-100 使用 camelot-py 时

Windows 10、Python 3.7.4、Ghostscript 9.5.2

遇到这个问题后,我从存储库安装了 camelot。没有再次收到此错误,但收到了这个新错误:

知道如何解决吗?

0 投票
0 回答
451 浏览

python - 如何让 Camelot 读取已打开为“rb”的 pdf 文件

有没有办法使用 camelot 将已经打开的 pdf 读取为“rb”,而不是使用以路径作为参数的 camelot.read_pdf?