问题标签 [python-camelot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python - 使用 camelot 以相反的顺序读取 PDF 到 excel
我正在使用库 camelot 来阅读 PDF 并使用 Python 导出为 excel。我尝试了两组 PDF 表格。对于一组表格,它可以完美运行。对于另一组 PDF 表单,数字以相反的顺序出现。有谁知道是什么原因导致它以及如何修复它,以便数字处于正常顺序。
这是 PDF 的链接: https ://drive.google.com/file/d/1AOo6a8eBt3-v_UU_OT2p99p3TeW-kk8t/view?usp=sharing 。
这是代码的主要部分:
python-3.x - 为什么总是“模块'xxx'没有属性'xxx'”?
我正在使用 pycharm 专业版,今天困扰我的是,我调用的许多模块似乎都不起作用,例如 plotly、tabula-py 和 camelot。
从下面的附图中,您可以看到,我什至在虚拟环境中工作,并且刚刚做了 pip install camelot。
例如,现在我尝试导入 camelot 和 read_pdf。出现错误,并显示“没有名为“camelot”的模块。
我尝试了 pip remove,然后再次 pip install;我也试过 pip3 安装,出现了类似的错误,说没有这样的模块或属性。
我的pycharm有什么问题?以及如何解决? 顺便说一句,在情节的情况下。我尝试使用 Terminal > jupyter notebook 打开它,然后运行代码,它工作。
python - 如何使用 python-camelot 从同一目录中的多个 PDF 中提取数据?
我正在尝试从多个 pdf 中的多个表中提取数据并将其保存为 csv 格式。我做了研究,发现 python-camelot 是一个很好的提取工具。我试过了,它在单个 pdf 上工作得很好。但是,我有超过 50 个相同格式的 PDF,所以我决定使用 For 循环遍历所有文件,但它不起作用,并且我得到一个错误文件在目录中找不到。你能帮忙吗?这是代码:
python - Camelot-py 没有在一行中检测到两行文本
使用 Camelot-py 从 .PDF 中抓取表格数据,它不会拾取堆叠的文本行(请参阅下面的第 9 行和第 10 行)
https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-table-areas
这是我拥有的 .ipynb 格式的代码。第一个块用于按预期提取的第一个表,第二个用于第 9 页。
桌子
使用 MatPlotLib,我可以看到 Camelot 正确检测了第 9 页的表格区域/网格。
这是 PDF 的 Google Drive 链接
任何见解将不胜感激。
python - Python Camelot - 导出文件而不附加附加到文件名的附加字符串
Python 3.7 和 Camelot 0.7.3。目前,Camelot 导出转换后的文件,并在文件名后附加了“ page-- table- ” - 我们的应用程序有非常具体的文件名要求,我正在尝试导出文件而不在文件名后附加额外的字符串. 这可能吗?该文档没有提及有关如何解决此问题的任何内容。
python - Python Camelot - 将一个 PDF 文件导出为一个转换后的文件
Python 3.7 和 Camelot 0.7.3。
默认情况下,Camelot 会为 pdf 文件的每一页导出单独的转换文件。我需要它以便将一个 pdf 文件导出到一个转换后的文件(我们使用 HTML 转换),无论 pdf 文件有多少页。文档不涵盖这种情况。有没有办法在不使用的情况下实现这一点compress=true
?zip 文件在我们的应用程序中不起作用。
cv2 - Python Camelot 模块无法离线工作
我在没有互联网连接的计算机上安装了适用于 python 3.7 的 Camelot 模块,安装了依赖项(tkinter 和 ghostscript)。
当我在 jupyter notebook 中尝试“import camelot”时,出现错误“没有名为 cv2 的模块”。我找不到单独下载的 cv2 模块链接。
我怎么解决这个问题?
python - 如何在 Python 中安装 Camelot 包?
我需要将表格 PDF 转换为 CSV。我尝试了 tabula、pdfminer 等所有东西......但似乎没有什么能给我想要的输出。
我遇到了 Camelot,想试一试,但无法在 Anaconda 上安装它。我正在尝试,conda install -c conda-forge camelot-py
但它似乎没有返回控制台控制。
我该如何进一步处理?
python - 如何让 Camelot 读取已打开为“rb”的 pdf 文件
有没有办法使用 camelot 将已经打开的 pdf 读取为“rb”,而不是使用以路径作为参数的 camelot.read_pdf?