问题标签 [tabula-py]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

90 问题

0 投票

0 回答

54 浏览

python - Python3：tabula-py 导入几个带有随机空格的字符串

我不确定这种行为是否正常，但在阅读 pdf 时存在一些不一致之处。

单线：pdf = tabula.read_pdf(path, pages=pages)

pathpdf文件的目录在哪里。在控制台中打印pdf某些值（例如天花板材料）时，解析的下一行有空格，例如天花板材料。

这是一张图片：

同样的情况也发生在一系列数字上，它们也是用空格导入的。

有谁知道为什么会这样？以及如何避免多余的空格？

我的意思是，一条线被完美解析而另一条线没有被解析是没有意义的。漏洞？

python pandas dataframe tabula-py

2021-04-07T20:28:50.110

0 投票

0 回答

18 浏览

python-3.x - 使用 Python 在多个 PDF 文件中查找日期模式

我在 Jupyter Notebook 中导入多个 PDF 文件。我想知道如何获取日期，因为每个导入的 PDF 文件的排列方式都不同。示例：第 1 号 PDF 的日期在第 3 列，第 2 号 PDF 的日期在第 5 列。我知道日期为 DD/MM/YYYY。如何从日期模式中获取日期？

python-3.x pdf re tabula-py

2021-04-13T00:25:34.543

0 投票

0 回答

89 浏览

python - Tabula-py 不读取文件的全部数据

我试图使用 tabularead_pdf()方法从 PDF 文件中读取表格。但它不是阅读完整的表格。它在表格的某些行上丢失了。我正在尝试以下给定的代码：

这是运行上述代码时的输出：

以及来自 PDF 文件的实际数据

python python-3.x dataframe tabula-py

2021-04-26T08:03:27.513

0 投票

0 回答

175 浏览

python - 将对象列表到 DataFrame | 制表符 | read_pdf_with_template

问题陈述：

我正在使用Tabula App用户界面从 PDF 文件中选择表格的维度作为表格模板，以提供JSON格式的维度。

选择表格维度后提取表格的 Tabula App 界面中的 DataFrame 是正确的。

但是，当我使用read_pdf_with_template返回List对象的方法时。当我将此列表对象转换为 DataFrame 时，它会合并不同的列。

代码片段：

数据框

Tabula App界面中的DataFrame ：

使用方法返回列表然后将其转换为DataFrame后的DataFrameread_pdf_with_template

注意：请忽略此问题中的列标题。

python python-3.x tabula tabula-py

2021-04-26T08:32:09.123

0 投票

1 回答

197 浏览

python - 隐蔽列表到 DataFrame | 表格-py | read_pdf_with_template()

问题陈述：

我正在使用Tabula App用户界面从 PDF 文件中选择表格的维度作为表格模板，以提供JSON格式的维度。

选择表格维度后提取表格的 Tabula App 界面中的 DataFrame 是正确的。

但是，当我使用read_pdf_with_template()返回List对象的方法时。当我将此列表对象转换为 DataFrame 时，它会合并不同的列。

代码片段：

使用read_pdf_with_template()方法后。

file是PDF文件。
tabula_saved.json是使用 Tabula 应用界面创建的 PDF 文件的 JSON 维度模板。

输出：

尝试使用以下代码转换为DataFrame后

输出：

在Tabula App Interface中提取的DataFrame是正确的。

注意：请忽略此问题中的列标题。

python python-3.x pandas tabula-py

2021-04-26T10:05:41.307

0 投票

0 回答

25 浏览

python - 尝试在 Jupyter Notebook 上将 pdf 转换为 csv 时出现类型错误

我正在尝试使用 Jupyter notebook 将 csv 转换为 pdf，并在尝试转换时收到这个巨大的错误消息。我正在精确地关注文档，不知道为什么会这样。

我之前的代码：

在上面的代码中，我尝试了两种不同的输出格式，一种是绝对输出路径，另一种是文件名。两者都返回相同的错误。

python jupyter-notebook tabula-py

2021-05-05T06:38:34.573

0 投票

0 回答

53 浏览

python - Tabula-py 根据条件拆分行

我有一个如下所示的 csv，我想根据标题 2 和 3 拆分行，我该如何在 tabula-py 中做到这一点？

下面是我在从 pdf 转换为 csv 时使用的代码，然后我在 html 表中显示它

我不知道如何在 python tabula 中执行此操作

python django tabula-py

2021-05-13T13:37:55.173

0 投票

0 回答

63 浏览

python - 连接表列表中的列

我已经使用以下代码刮掉了这个PDFTabula ，并创建了一个 (1410) 表列表：multiple_tables=True

示例第一个表：

问题

如何首先连接（一个在另一个之上）每个表中的三列以获得一个单列，然后将 1410 个表连接成一个表？

我设法遍历表列表并打印一列，但我不能将结果放入数据帧中：

我试过这个：

python concatenation pdf-scraping tabula-py

2021-05-19T16:54:31.080

0 投票

0 回答

13 浏览

python - 无法使用 tabula-py 捕获表数据

无法完全提取 MBLHA10B\rGHH4258\r3，正如我们只能从 BLHA10B\rGHH4258\r3 看到的那样，它正在跳跃，我正在解开木器“M”

请参考此链接https://i.stack.imgur.com/vqL91.png

python tabula-py

2021-05-27T12:01:36.720

0 投票

0 回答

50 浏览

python - Tabula-py：从包含表单字段的 pdf 中读取表格

我正在尝试阅读包含多个表格的 pdf，这些表格具有用于勾选/复选标记自由文本、数字、下拉选择等的表单字段。

不幸的是，返回的数据帧不会呈现 pdf 字段中包含的信息。

有谁知道是否也可以提取该信息？

python pdf-scraping tabula-py

2021-05-28T12:24:02.620

1 2 3 4 5 6 7 8 9 10