问题标签 [tabula-py]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
56 浏览

python - tabula pdf到数据框,相同的pdf格式,不同的结果python

我成功地在 pdf 中提取了我想要的表格,但是,当我使用相同的方法在另一个具有相同格式的 pdf 中提取表格时,标题和一些行丢失了。我尝试设置guess = False,它部分解决了问题,但我想知道是什么造成了差异。谢谢你的帮助。

代码如下:

结果如下:

dbs1 结果 dbs1 数据库结果 数据库

原始pdf:

数据库1 dbs1 数据库 数据库

0 投票
0 回答
44 浏览

python-3.x - 使用 Tabula 和 csv 文件的 Pandas 中的列标题错误

我正在尝试使用制表符阅读银行对帐单的第二页或第三页。这是当前代码:

但结果是:

在此处输入图像描述

需要将该日期交易行作为列标题读取。

这是pdf文件格式:

在此处输入图像描述

0 投票
0 回答
56 浏览

java - Python tabula.io 错误:来自 tabula-java 的错误:未指定协议 线程“main”java.awt.AWTError 中的异常

我正在解决我在使用基于 python 的 tabula-io 库时遇到的 pdf 解析问题。

tabula-py 版本:2.2.0 包 default-jre-headless 已安装

请帮我确定我在这里做错了什么,并提出可能的解决方案来解决这个问题?

任何帮助将一如既往地受到赞赏,始终感谢开发社区......

0 投票
0 回答
53 浏览

python - 无法使用 Tabula 将 PDF 转换为 CSV

当我尝试使用 Tabula 将 PDF 文件转换为 CSV 时,我得到一个空白选项卡。我想将 PDF 的特定页面转换为 .csv 格式。我收到以下错误:

我的代码:

0 投票
0 回答
36 浏览

python - 将 pdf 转换为 excel 他们显示错误无法从“tabula”(未知位置)导入名称“read_pdf”`

当我将 pdf 转换为 excel 时,它们会显示这些错误cannot import name 'read_pdf' from 'tabula' (unknown location)

0 投票
0 回答
73 浏览

python - 使用制表符解析 pdf 时忽略换行符

我正在尝试使用tabula-py. 但是我有一个问题;` 在其中一列上,有一行将文本分成新行并忽略剩余的文本。这是带有换行符的列的示例

在此处输入图像描述

阅读时会产生以下文本: "VALUE ADD\rVAT ON NIP\r

如何让制表符忽略这些换行符?这是我的代码:

谢谢

0 投票
1 回答
24 浏览

python - python:可以从命令行导入包,但不能从 jupyter notebook

我在尝试将 tabula 包导入 jupyter 笔记本时遇到了问题。我激活了我的 conda 虚拟环境,pip 安装了 tabula-py,然后运行pip freeze​​. 它确认已安装 tabula-py。

当我的虚拟环境处于活动状态时,我测试了从命令行 ( import tabula) 导入 tabula 包。一切正常!我跑出exit()python 实例,然后跑出jupyter notebook一个 jupyter notebook。(仍在我的虚拟环境中)

但是,在 jupyter 中,我的 import 语句不再起作用,即使我没有更改任何内容。我help('modules')在 jupyter 中运行,现在我的包列表中不存在 tabula ????我不确定为什么它不起作用。我设置了 Java PATH,除了 jupyter notebook 外,它在任何地方都可以正常工作。

0 投票
2 回答
121 浏览

python - 无法使用表格将 PDF 文件的多个 PDF 页面转换为 CSV

我有 PDF 文件,其第一页数据格式不同,但其余页面具有相同的表格格式。我想使用 Python Tabula 将这个具有多个页面的 PDF 文件转换为 CSV 文件。

如果 PDF 只有 2 页,并且如果它有超过两页,则当前代码能够将 PDF 转换为 CSV,它会给出超出范围的错误。

我想计算 PDF 文件的 PDF 页面总数,并且取决于相同的我希望 python 脚本将 PDF 转换为 CSV 以用于不同的数据帧。

我正在使用 Linux 机器来运行这个 python 脚本。

代码如下:

请建议如何实现相同的目标。我对 Python 很陌生,因此无法把东西放在一起。

0 投票
2 回答
288 浏览

python - tabula 和 camelot 未检测到表

我试图从我认为格式不正确的 PDF 中提取表格。这些 PDF 中的表格具有表格格式,但没有用垂直边框正确括起来。在此处输入图像描述我将附上示例 pdf 并与两个库一起输出。当我尝试使用 tabula 进行表格检测时,pdf 中的所有页面上都会返回一个空白数据帧。

输入 0 表示单页,1 表示全部,2 表示特定页面:2 输入页码:25 在此页面上未按表格找到表格。

当我使用 camelot 时,我使用时同样没有响应flovor='lattice'

输入 0 表示单页,1 表示所有页面,2 表示表格中的页面由 tabula 检测,3 表示特定页面:3 输入 0 表示 lattice 或 1 表示流:0 输入页码:25 在此页面上没有找到表由 camelot .

当我使用时flovor='stream',我得到一个数据框,其中每一行都使用制表符分隔的数据逐行读取,但它也会在该数据框中包含普通文本。

输入 0 表示单页,输入 1 表示所有页面,输入 2 表示表格中的页面由 tabula 检测,3 表示特定页面:3 输入 0 表示 lattice 或 1 表示流:1 输入页码:25 在此处输入图像描述

如果不存在垂直封闭表格行,我只需要一种有效的方法来检测表格并提取相同的数据。如果表格是由垂直和水平线包围的正确格式,那么 tabula 和 camelot 库都可以正常工作。

0 投票
1 回答
112 浏览

python - 如何在 python 中循环 tabula-py 数据格式

我想知道如何从 python 中的 pdf 文件中提取特定的表列。

到目前为止我的代码

我可以通过 print (dfs[2]['Section ID']) 访问单个表列我想知道如何使用 for 循环在所有数据框中搜索特定列。

我想做这样的事情