问题标签 [tabula-py]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1280 浏览

python - 异常:在 python azure 功能应用程序中运行 Tabula-py 时出现 JavaNotFoundError

我正在使用 blob trigger python azure function app 从 pdf 中提取数据,并且在使用 tabula py 时出现以下错误。我能够毫无问题地在本地运行它,但是,当我部署该功能时,我收到以下错误:

这是我的代码:

我也尝试过 camelot,但遇到了与 ghostscript 安装相关的并发症。

我正在制定消费计划。任何有关如何解决此问题的帮助将不胜感激。

谢谢你。

0 投票
0 回答
412 浏览

python - 在python中使用tabula从PDF中提取完整的表格

我有一个PDF,表格格式如下,列名和数据用“--------”分隔

当前代码:

df 是 pdf 中所有表的数据框列表

我能够使用 tabula 提取表格内容,但可能是由于表格格式,它忽略了列名并将表格的第一行显示为列名。如何获取列名?col3 也为空,tabula 完全忽略此列。如何提取包含空列的列名的完整表

我不确定这是否可行,但是如果我从表格中删除“----------”,我相信 tabula 将能够正确读取表格。但是,我不确定如何从pdf中删除“------------”。我正在尝试使用 pypdf2 从 pdf 中提取数据,但无法更改内容。

代码 :

0 投票
1 回答
238 浏览

python - 在 Python 中,阅读没有大纲的 pdf 表格的最佳方法是什么?

我正在尝试将 pdf 中的表中的数据读取到 pandas 数据框中。当 pdf 在桌子周围有轮廓时,我可以使用 tabula-py 这样做,但是当我尝试在没有轮廓的 pdf 上时,脚本会产生错误。

例如,我正在查看来自两个不同 url 的 pdf。我已经从网址下载了 pdf,并将它们分别保存为“JSE Opts.pdf”和“JSE Divs.pdf”。

我可以使用以下代码将“JSE Opts.pdf”读入熊猫数据框:

当我尝试对“JSE Divs.pdf”执行相同操作时,出现错误并且 tabula-py 只能读取标题:

我怀疑这是因为桌子周围没有线条。如果是这种情况,将“JSE Divs.pdf”中的数据读入熊猫的最佳方法是什么?

0 投票
0 回答
93 浏览

python - tabula_py 问题 如何提取分布在多个页面中的 pdf 表格数据

我正在尝试使用 tabula_py 从 pdf 中提取所有表数据: df=tabula.read_ptabula.read_pdf(test_pdf,stream=True,multiple tables=True,pages="all")

pdf有3个表。第二张表在 2 页上。当我尝试 len(df) 时,它返回 4 而不是 3 扩展页面上第二个表数据的第一行作为标题返回如何将数据作为同一个表从标题提取到最后一行

0 投票
1 回答
856 浏览

python-camelot - 如何使用 tabula_py 或 camelot 读取分布在多个页面上的表格

我正在使用 tabula_py 读取 pdf 上的表格。有些很大。我有很多情况下,表格不止一页。Isuue 是 tabula_py 将每一页视为新表,而不是作为一个大表读取。与 Camelot 相同的问题

0 投票
1 回答
73 浏览

python-3.x - 具有深度分析技能的 PDF 爬虫

我正在尝试为公司的年度报告构建一个 pdf 爬虫 - 这些报告是包含大量文本和大量表格的 pdf 文档。

我将 pdf 转换为 txt 没有任何问题,但我的实际目标是搜索某些关键字(例如 REVENUE、PROFIT)并将数据 Revenue 1.000.000.000€ 提取到数据框中。

我尝试了不同的库,尤其是 tabula-py 和 PyPDF2,但我找不到一个聪明的方法来做到这一点 - 任何人都可以帮助制定策略,这将是惊人的!

最好的问候, 罗宾

0 投票
0 回答
18 浏览

python - 语言 PDF:如何将例句添加到源词并添加到 CSV

首先,我是 Python 新手,所以请多多包涵。我有一个 PDF 文件,左边是西班牙语词汇,右边是德语翻译。有时也有一些例句来说明句子的用法。这是 PDF 的外观:

PDF 示例

我想编写一个 Python 脚本,它包含所有词汇、翻译和例句(+ 翻译),并获得一个包含四列的 CSV 文件。CSV 文件应如下所示:

理想 CSV 示例

如果没有例句,我可以逐行阅读,效果很好。但是,如果有一个例句,该行看起来有点像这样:

西班牙语句子应如下所示:Hay descuentos en los viajes para la tercera edad. 德语句子应如下所示:Für Senioren gibt es bei Reisen Ermässigung. 理想情况下,应将两个例句添加到“base”词中,因此在我上面的示例中添加到“la tercera edad”/“die Senioren”。对于“la tercera edad”,应该有四列。有时,没有例句;在这种情况下,我只需要两列。

这是我所做的:

打印line输出如下:

也许有办法做到这一点tabuly-py?我会很感激任何帮助。

干杯。

0 投票
1 回答
649 浏览

python - 使用python将pdf表连接到一个excel表中

我正在使用以下pdf文件tabula中的concat所有内容tables

excel成为格式中的一张表。

这是我的代码:

我也尝试了以下方法:

当前输出:检查

但是从页面#面临的问题91我开始看到excel文件中的数据格式不正确。

我已经单独调试了页面,但我无法弄清楚为什么它的格式错误,尤其是它的格式相同。

在此处输入图像描述

示例

在这里,我运行了第 90 和 91 页两页的代码。

从第 48 行开始,您将在这里看到不同之处

您会注意到将名称和地址放在一个单元格中的问题。城市和州也合而为一

0 投票
1 回答
164 浏览

python - GAE 部署错误:没有名为“tabula”的模块

起初,我使用 Python 运行时创建了一个新项目,并使用 Flask 公开了一些 API 端点。其中一种方法使用 Python 库(tabula-py),我在这里读到因为 tabula-py 需要 Java8+,所以我必须使用具有自定义运行时间的灵活环境。

所以我做到了,我制作了一个 Dockerfile(如下所示),但不幸的是,在将应用程序部署到 gcloud 时仍然出现此错误。我不得不说,本地代码运行良好,但是当我使用“gcloud app deploy”时,我得到了这个错误。

主文件

应用程序.yaml

Dockerfile

0 投票
1 回答
1151 浏览

python-3.x - Python Tabula 库 - 输出文件为空

我在 Python 中使用 Tabula 模块。我正在尝试从 PDF 输出文本。

我正在使用这段代码:

当我运行我的代码时,它显示“输出文件为空”。

知道为什么会这样吗?

编辑:如果我删除了除 input_path 和 pages 之外的所有内容,我的数据将被正确读入 pdf_read,它只是不会输出到外部文件中。

这个选项有问题……嗯……

编辑#2:我想出了为什么区域部分不起作用,现在它是,但由于某种原因我仍然无法让它输出文件。

编辑#3:我试着看这个:How to convert PDF to CSV with tabula-py?

但我不断收到一条错误消息:“build_options() 有一个意外的关键字参数‘电子表格’

编辑#4:我使用的是最新版本的 tabula.py,它没有电子表格选项。

但是仍然无法输出带有数据的文件。