问题标签 [tabula]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1205 浏览

python - 未检测列

我正在使用 tabula-py 解析银行对帐单,其中列由垂直边距分隔,但行没有分隔。所以我使用流模式,但如果在任何页面中没有任何列的条目,则 tabula 将它们合并为一个用于代码

所以我使用列选项手动选择列

但它没有像 tabula 甚至没有读取选项输出与以前的相同抱歉,出于隐私目的,我无法发布表格。

[我的表格有点像你可以在https://i.stack.imgur.com/f40V0.png 查看图片]

0 投票
1 回答
1568 浏览

python-3.x - 在 python 3.6 上运行 tabula.read_pdf() 函数时获取“CalledProcessError ....返回非零退出状态 1”

我已经尝试了所有可能的选择。请帮忙

在 python 中运行 tabula 的 read_pdf() 时出现以下错误。错误是

运行时tabula.environment_info()

我得到以下信息:

我已经尝试保留我的程序文件,即我在桌面上编写了上面称为 untitled0.py 的代码的位置,以及我试图在桌面上处理的文本文件。我从 Stackoverflow 中看到无数选项,例如获取 Java 7 而不是 Java 8 将解决我的问题,升级 tabula 包(我发现它已经是最新版本)并且我的 Java 也已更新。有人在另一篇文章的评论中说将代码和pdf保存在我所做的同一目录中,但无济于事。上面的错误信息不断出现。

错误信息:

预期结果:我应该能够解析多个表格,或者我应该说从我作为输入提供的 pdf 文档中提取多个表格

更新: 也运行如下所示:https ://github.com/chezou/tabula-py/issues/93没有任何好处。请参阅下面的错误..

更新:

我下载的文件来源是: https ://arxiv.org/pdf/1409.3215.pdf

更新 我还检查了此处发布的解决方案,但不太明白他们建议的解决方案:

https://github.com/chezou/tabula-py/issues/60

更新

我已经放弃了对白板的希望。我改为使用 camelot..好多了。

0 投票
0 回答
210 浏览

python - 将 python 脚本转换为 .exe 后 Tabula 不起作用

我正在使用 tabula 和 python 编写用于网络抓取的脚本。我测试了它,它工作,我需要将.py文件转换为.exe,以便它可以在我公司的计算机上运行(我的办公室禁止安装python)。但是,当我使用 auto-py-to-exe 转换它时,tabula 停止工作。它返回以下错误消息:

我尝试将 tabula 文件夹放入与 .exe 文件相同的目录中。但是,它仍然不起作用

0 投票
0 回答
256 浏览

java - 如何从pdf中提取特定细节到excel

我想从具有表格格式的 pdf 中提取特定细节,并希望使用 python 将其保存到 excel 中。

我尝试使用 tabula 库将 pdf 转换为 excel/文本。

我也尝试过 area 参数,但没有太大帮助

我想提取如图所示突出显示的部分并将每一行保存在不同的单元格中

0 投票
1 回答
1403 浏览

python-3.x - 是什么导致 AttributeError: 'list' object has no attribute 'read' 在使用 Tabula 读取 pdf 时?

我正在尝试使用 Tabula 从 pdf 中提取表格信息并将其转换为 pandas 数据框。我一直在按照本教程中的步骤进行操作:

https://aegis4048.github.io/parse-pdf-files-while-retaining-structure-with-tabula-py

当我尝试使用以下代码(直接取自教程)将远程 PDF 加载到我的 jupyter 笔记本中时:

我得到错误:

AttributeError:“列表”对象没有属性“读取”

我试图阅读本地保存到我机器上的 pdf,但我得到了同样的错误。我相信我已经成功安装了 Java 并正确配置了环境变量,并且我拥有最新版本的 Tabula。

链接到我的 jupyter 笔记本的屏幕截图:

https://www.dropbox.com/s/y44mfzuclihfdau/S_O_Capture_1.PNG?dl=0

谢谢。

0 投票
0 回答
92 浏览

python - Tabula 未正确排序提取的表

PDF PIC我使用 tabula 从 PDF 中提取了一个表格,表格如下所示:

原始表格如下所示:

等等,我怎样才能把桌子设置得尽可能接近原来的?

如您所见,编号为 1,2,3....... 的行在同一行中包含应该在列下的值。

0 投票
1 回答
71 浏览

python - tabula.exe 路径未在 pyqt5 中打开

我已经在 pyqt5 中指定了 tabula.exe 的路径,当我运行代码时,只有 cmd 闪烁一秒钟并关闭。我尝试了以下

0 投票
2 回答
1206 浏览

python - pdf到csv文件转换的文本内容-如何?

我想将 PDF 文件作为输入。作为输出文件,我希望显示一个 csv 文件。因此,pdf 文件中的所有文本数据都应转换为 csv 文件。但我不明白这是怎么发生的......我最早需要你的帮助,因为我试图这样做但无法做到。

我所做的是使用了一个名为 Tabula-py 的库,它将 pdf 转换为 csv 文件。它确实创建了 csv 格式,但没有从 pdf 文件复制到 csv 文件的内容。

这是代码

输出应以 csv 文件的形式出现,其中存在数据。我得到的是一个空白的 csv 文件。

0 投票
1 回答
2043 浏览

python - 从PDF中提取带有坐标的表格

我正在尝试从多页 PDF 中提取,然后突出显示 PDF 的某些部分。为此,我需要提取文本的坐标。

我使用tabula-py来提取表:

通过使用 param output_format='json',我们可以检索每个带有坐标的文本,这里是一个数据框格式的例子(这里的数据框是一个字典,你要加载它)和 json 格式:

有没有一种方法可以创建像第一个一样的数据框,但每个文本的坐标为 Rect() 例如?

0 投票
2 回答
2430 浏览

python - 使用 Camelot 解析 Python PDF 并提取表格标题

Camelot 是一个很棒的 Python 库,可以从 pdf 文件中提取表格作为数据框。但是,我正在寻找一种解决方案,该解决方案还可以返回写在表格正上方的表格描述文本。

我用于从 pdf 中提取表格的代码是这样的:

我想提取表格上方的文字,即THE PARTICULARS,如下图所示。

对我来说最好的方法是什么?感谢任何帮助。谢谢你

在此处输入图像描述