问题标签 [tabula-py]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
54 浏览

python - Python3:tabula-py 导入几个带有随机空格的字符串

我不确定这种行为是否正常,但在阅读 pdf 时存在一些不一致之处。

单线:pdf = tabula.read_pdf(path, pages=pages)

pathpdf文件的目录在哪里。在控制台中打印pdf某些值(例如天花板材料)时,解析的下一行有空格,例如天花板材料。

这是一张图片:

在此处输入图像描述

同样的情况也发生在一系列数字上,它们也是用空格导入的。

有谁知道为什么会这样?以及如何避免多余的空格?

我的意思是,一条线被完美解析而另一条线没有被解析是没有意义的。漏洞?

0 投票
0 回答
18 浏览

python-3.x - 使用 Python 在多个 PDF 文件中查找日期模式

我在 Jupyter Notebook 中导入多个 PDF 文件。我想知道如何获取日期,因为每个导入的 PDF 文件的排列方式都不同。示例:第 1 号 PDF 的日期在第 3 列,第 2 号 PDF 的日期在第 5 列。我知道日期为 DD/MM/YYYY。如何从日期模式中获取日期?

0 投票
0 回答
89 浏览

python - Tabula-py 不读取文件的全部数据

我试图使用 tabularead_pdf()方法从 PDF 文件中读取表格。但它不是阅读完整的表格。它在表格的某些行上丢失了。我正在尝试以下给定的代码:

这是运行上述代码时的输出:

以及来自 PDF 文件的实际数据

0 投票
0 回答
175 浏览

python - 将对象列表到 DataFrame | 制表符 | read_pdf_with_template

问题陈述:

我正在使用Tabula App用户界面从 PDF 文件中选择表格的维度作为表格模板,以提供JSON格式的维度。

选择表格维度后提取表格的 Tabula App 界面中的 DataFrame 是正确的。

但是,当我使用read_pdf_with_template返回List对象的方法时。当我将此列表对象转换为 DataFrame 时,它​​会合并不同的列。


代码片段:


数据框

Tabula App界面中的DataFrame :


使用方法返回列表然后将其转换为DataFrame后的DataFrameread_pdf_with_template


注意:请忽略此问题中的列标题。

0 投票
1 回答
197 浏览

python - 隐蔽列表到 DataFrame | 表格-py | read_pdf_with_template()

问题陈述:

我正在使用Tabula App用户界面从 PDF 文件中选择表格的维度作为表格模板,以提供JSON格式的维度。

选择表格维度后提取表格的 Tabula App 界面中的 DataFrame 是正确的。

但是,当我使用read_pdf_with_template()返回List对象的方法时。当我将此列表对象转换为 DataFrame 时,它​​会合并不同的列。


代码片段:

  1. 使用read_pdf_with_template()方法后。
  • file是PDF文件。
  • tabula_saved.json是使用 Tabula 应用界面创建的 PDF 文件的 JSON 维度模板。

输出:

  1. 尝试使用以下代码转换为DataFrame后

输出:


在Tabula App Interface中提取的DataFrame是正确的。


注意:请忽略此问题中的列标题。

0 投票
0 回答
25 浏览

python - 尝试在 Jupyter Notebook 上将 pdf 转换为 csv 时出现类型错误

截图 1 截图 2

我正在尝试使用 Jupyter notebook 将 csv 转换为 pdf,并在尝试转换时收到这个巨大的错误消息。我正在精确地关注文档,不知道为什么会这样。

我之前的代码:

在上面的代码中,我尝试了两种不同的输出格式,一种是绝对输出路径,另一种是文件名。两者都返回相同的错误。

0 投票
0 回答
53 浏览

python - Tabula-py 根据条件拆分行

我有一个如下所示的 csv,我想根据标题 2 和 3 拆分行,我该如何在 tabula-py 中做到这一点?

样本 csv

下面是我在从 pdf 转换为 csv 时使用的代码,然后我在 html 表中显示它

我不知道如何在 python tabula 中执行此操作

0 投票
0 回答
63 浏览

python - 连接表列表中的列

我已经使用以下代码刮掉了这个PDFTabula ,并创建了一个 (1410) 表列表:multiple_tables=True

示例第一个表:

问题

如何首先连接(一个在另一个之上)每个表中的三列以获得一个单列,然后将 1410 个表连接成一个表?

我设法遍历表列表并打印一列,但我不能将结果放入数据帧中:

我试过这个:

0 投票
0 回答
13 浏览

python - 无法使用 tabula-py 捕获表数据

无法完全提取 MBLHA10B\rGHH4258\r3,正如我们只能从 BLHA10B\rGHH4258\r3 看到的那样,它正在跳跃,我正在解开木器“M”

请参考此链接https://i.stack.imgur.com/vqL91.png

0 投票
0 回答
50 浏览

python - Tabula-py:从包含表单字段的 pdf 中读取表格

我正在尝试阅读包含多个表格的 pdf,这些表格具有用于勾选/复选标记自由文本、数字、下拉选择等的表单字段。

不幸的是,返回的数据帧不会呈现 pdf 字段中包含的信息。

有谁知道是否也可以提取该信息?