问题标签 [python-camelot]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

133 问题

0 投票

0 回答

98 浏览

python - Python - 使用 camelot 以相反的顺序读取 PDF 到 excel

我正在使用库 camelot 来阅读 PDF 并使用 Python 导出为 excel。我尝试了两组 PDF 表格。对于一组表格，它可以完美运行。对于另一组 PDF 表单，数字以相反的顺序出现。有谁知道是什么原因导致它以及如何修复它，以便数字处于正常顺序。

这是 PDF 的链接： https ://drive.google.com/file/d/1AOo6a8eBt3-v_UU_OT2p99p3TeW-kk8t/view?usp=sharing 。

这是代码的主要部分：

2020-03-02T03:20:42.050

0 投票

1 回答

1112 浏览

python-3.x - 为什么总是“模块'xxx'没有属性'xxx'”？

我正在使用 pycharm 专业版，今天困扰我的是，我调用的许多模块似乎都不起作用，例如 plotly、tabula-py 和 camelot。

从下面的附图中，您可以看到，我什至在虚拟环境中工作，并且刚刚做了 pip install camelot。

例如，现在我尝试导入 camelot 和 read_pdf。出现错误，并显示“没有名为“camelot”的模块。

我尝试了 pip remove，然后再次 pip install；我也试过 pip3 安装，出现了类似的错误，说没有这样的模块或属性。

我的pycharm有什么问题？以及如何解决？顺便说一句，在情节的情况下。我尝试使用 Terminal > jupyter notebook 打开它，然后运行代码，它工作。

python-3.x pycharm tabula python-camelot

2020-03-04T13:16:48.210

0 投票

1 回答

1980 浏览

python - 如何使用 python-camelot 从同一目录中的多个 PDF 中提取数据？

我正在尝试从多个 pdf 中的多个表中提取数据并将其保存为 csv 格式。我做了研究，发现 python-camelot 是一个很好的提取工具。我试过了，它在单个 pdf 上工作得很好。但是，我有超过 50 个相同格式的 PDF，所以我决定使用 For 循环遍历所有文件，但它不起作用，并且我得到一个错误文件在目录中找不到。你能帮忙吗？这是代码：

python pdf-scraping python-camelot

2020-03-11T20:28:39.273

0 投票

1 回答

1780 浏览

python - Camelot-py 没有在一行中检测到两行文本

使用 Camelot-py 从 .PDF 中抓取表格数据，它不会拾取堆叠的文本行（请参阅下面的第 9 行和第 10 行）

第 9 行和第 10 行没有文字说明。

https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-table-areas

这是我拥有的 .ipynb 格式的代码。第一个块用于按预期提取的第一个表，第二个用于第 9 页。

桌子

使用 MatPlotLib，我可以看到 Camelot 正确检测了第 9 页的表格区域/网格。

绘图表区域

绘图网格

这是 PDF 的 Google Drive 链接

通话报告 PDF

任何见解将不胜感激。

python pdf pdf-scraping python-camelot

2020-03-11T21:43:11.583

0 投票

1 回答

362 浏览

python - Python Camelot - 导出文件而不附加附加到文件名的附加字符串

Python 3.7 和 Camelot 0.7.3。目前，Camelot 导出转换后的文件，并在文件名后附加了“ page-- table- ” - 我们的应用程序有非常具体的文件名要求，我正在尝试导出文件而不在文件名后附加额外的字符串. 这可能吗？该文档没有提及有关如何解决此问题的任何内容。

python python-3.7 python-camelot

2020-03-12T19:32:22.770

0 投票

0 回答

48 浏览

python - Python Camelot - 将一个 PDF 文件导出为一个转换后的文件

Python 3.7 和 Camelot 0.7.3。

默认情况下，Camelot 会为 pdf 文件的每一页导出单独的转换文件。我需要它以便将一个 pdf 文件导出到一个转换后的文件（我们使用 HTML 转换），无论 pdf 文件有多少页。文档不涵盖这种情况。有没有办法在不使用的情况下实现这一点compress=true？zip 文件在我们的应用程序中不起作用。

python python-camelot

2020-03-12T19:36:22.163

0 投票

2 回答

404 浏览