问题标签 [tabula-py]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

90 问题

0 投票

0 回答

56 浏览

python - tabula pdf到数据框，相同的pdf格式，不同的结果python

我成功地在 pdf 中提取了我想要的表格，但是，当我使用相同的方法在另一个具有相同格式的 pdf 中提取表格时，标题和一些行丢失了。我尝试设置guess = False，它部分解决了问题，但我想知道是什么造成了差异。谢谢你的帮助。

代码如下：

结果如下：

dbs1 数据库

原始pdf：

dbs1 数据库

2021-08-16T04:28:30.713

0 投票

0 回答

44 浏览

python-3.x - 使用 Tabula 和 csv 文件的 Pandas 中的列标题错误

我正在尝试使用制表符阅读银行对帐单的第二页或第三页。这是当前代码：

但结果是：

需要将该日期交易行作为列标题读取。

这是pdf文件格式：

python-3.x csv tabula-py

2021-09-08T12:04:20.837

0 投票

0 回答

56 浏览

java - Python tabula.io 错误：来自 tabula-java 的错误：未指定协议线程“main”java.awt.AWTError 中的异常

我正在解决我在使用基于 python 的 tabula-io 库时遇到的 pdf 解析问题。

tabula-py 版本：2.2.0 包 default-jre-headless 已安装

请帮我确定我在这里做错了什么，并提出可能的解决方案来解决这个问题？

任何帮助将一如既往地受到赞赏，始终感谢开发社区......

java python-3.x debian tabula-py

2021-10-20T18:58:42.390

0 投票

0 回答

53 浏览

python - 无法使用 Tabula 将 PDF 转换为 CSV

当我尝试使用 Tabula 将 PDF 文件转换为 CSV 时，我得到一个空白选项卡。我想将 PDF 的特定页面转换为 .csv 格式。我收到以下错误：

我的代码：

python tabula-py

2021-10-29T10:26:36.840

0 投票

0 回答

36 浏览

python - 将 pdf 转换为 excel 他们显示错误无法从“tabula”（未知位置）导入名称“read_pdf”`

当我将 pdf 转换为 excel 时，它们会显示这些错误cannot import name 'read_pdf' from 'tabula' (unknown location)

python web-scraping tabula tabula-py

2021-11-04T11:26:56.097

0 投票

0 回答

73 浏览

python - 使用制表符解析 pdf 时忽略换行符

我正在尝试使用tabula-py. 但是我有一个问题；` 在其中一列上，有一行将文本分成新行并忽略剩余的文本。这是带有换行符的列的示例

阅读时会产生以下文本： "VALUE ADD\rVAT ON NIP\r

如何让制表符忽略这些换行符？这是我的代码：

谢谢

python tabula tabula-py

2021-11-08T20:22:00.427

0 投票

1 回答

24 浏览

python - python：可以从命令行导入包，但不能从 jupyter notebook

我在尝试将 tabula 包导入 jupyter 笔记本时遇到了问题。我激活了我的 conda 虚拟环境，pip 安装了 tabula-py，然后运行pip freeze. 它确认已安装 tabula-py。

当我的虚拟环境处于活动状态时，我测试了从命令行 ( import tabula) 导入 tabula 包。一切正常！我跑出exit()python 实例，然后跑出jupyter notebook一个 jupyter notebook。（仍在我的虚拟环境中）

但是，在 jupyter 中，我的 import 语句不再起作用，即使我没有更改任何内容。我help('modules')在 jupyter 中运行，现在我的包列表中不存在 tabula ？？？？我不确定为什么它不起作用。我设置了 Java PATH，除了 jupyter notebook 外，它在任何地方都可以正常工作。

python jupyter-notebook package tabula-py

2021-11-10T16:15:34.637

0 投票

2 回答

121 浏览

python - 无法使用表格将 PDF 文件的多个 PDF 页面转换为 CSV

我有 PDF 文件，其第一页数据格式不同，但其余页面具有相同的表格格式。我想使用 Python Tabula 将这个具有多个页面的 PDF 文件转换为 CSV 文件。

如果 PDF 只有 2 页，并且如果它有超过两页，则当前代码能够将 PDF 转换为 CSV，它会给出超出范围的错误。

我想计算 PDF 文件的 PDF 页面总数，并且取决于相同的我希望 python 脚本将 PDF 转换为 CSV 以用于不同的数据帧。

我正在使用 Linux 机器来运行这个 python 脚本。

代码如下：

请建议如何实现相同的目标。我对 Python 很陌生，因此无法把东西放在一起。

python csv pdf tabula-py

2021-11-18T15:28:38.343

0 投票

2 回答

288 浏览

python - tabula 和 camelot 未检测到表

我试图从我认为格式不正确的 PDF 中提取表格。这些 PDF 中的表格具有表格格式，但没有用垂直边框正确括起来。我将附上示例 pdf 并与两个库一起输出。当我尝试使用 tabula 进行表格检测时，pdf 中的所有页面上都会返回一个空白数据帧。

输入 0 表示单页，1 表示全部，2 表示特定页面：2 输入页码：25 在此页面上未按表格找到表格。

当我使用 camelot 时，我使用时同样没有响应flovor='lattice'

输入 0 表示单页，1 表示所有页面，2 表示表格中的页面由 tabula 检测，3 表示特定页面：3 输入 0 表示 lattice 或 1 表示流：0 输入页码：25 在此页面上没有找到表由 camelot .

当我使用时flovor='stream'，我得到一个数据框，其中每一行都使用制表符分隔的数据逐行读取，但它也会在该数据框中包含普通文本。

输入 0 表示单页，输入 1 表示所有页面，输入 2 表示表格中的页面由 tabula 检测，3 表示特定页面：3 输入 0 表示 lattice 或 1 表示流：1 输入页码：25

如果不存在垂直封闭表格行，我只需要一种有效的方法来检测表格并提取相同的数据。如果表格是由垂直和水平线包围的正确格式，那么 tabula 和 camelot 库都可以正常工作。

python pdf nlp python-camelot tabula-py

2021-11-22T15:08:39.853

0 投票

1 回答

112 浏览

python - 如何在 python 中循环 tabula-py 数据格式

我想知道如何从 python 中的 pdf 文件中提取特定的表列。

到目前为止我的代码

我可以通过 print (dfs[2]['Section ID']) 访问单个表列我想知道如何使用 for 循环在所有数据框中搜索特定列。

我想做这样的事情

python pandas dataframe tabula-py

2021-11-27T15:31:56.153

1 2 3 4 5 6 7 8 9 10

问题标签 [tabula-py]

Reference