问题标签 [tabula]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3923 浏览

python-3.x - 无法使用制表符阅读 pdf

我在尝试使用 tabula(tabula-py) 读取 pdf 文件时遇到以下错误。

有没有办法像 pandas 或其他一些库一样在 python 中读取 pdf?

请建议。

我看到的一种方法是pdftotext转换..

刚刚查看了@ace 提供的链接,发现了一些相关的东西:

0 投票
2 回答
662 浏览

python - Tabula:PIP 安装程序显示“下载成功”,但无法导入

我已经使用 pip、tabula 下载了一个用于读取 pdf 文件的库:

但是,当我尝试使用以下方法导入表格时:

我得到:

我在 anaconda3 控制台上的 Spyder 上运行它。怎么了?

编辑1:

当我在终端上运行程序时,没有出现错误。但是,我很懒,不想在 Spyder 和终端之间切换。

编辑2:

我在 HighSierraOS 上使用 Mac。

编辑 3:

我有“放弃”的表格,现在正在使用 PyPDF2。我更喜欢 PyPDF 2,因为每次我阅读 pdf 文件时 tabula 都会打开 Java,这很烦人。PyPDF2 似乎更快。(不是由 PyPDF2 赞助的)

0 投票
1 回答
9516 浏览

python - 提取跨越多个页面的表

我正在尝试从 pdf 中提取表格。Tabula 帮助我从 pdf 中提取表格。

目前我面临的问题是,如果任何表格跨越多个页面,Tabula 将每个新页表内容视为新表格。

有什么方法或逻辑来克服这个问题吗?

代码:

输出

解释 Tabula 以了解表格边界和下一页跨越的任何逻辑?

或者任何其他可以帮助解决这个问题的图书馆?

0 投票
1 回答
510 浏览

python - tabula-py 的奇怪行为

我正在使用 Python 3.5 和 Anaconda 发行版。tabula-py 版本 1.1.1 已安装。当我运行以下简单程序时:

我收到以下错误消息:

但是:如果我在运行代码之前打开 Spyder 并首先在 IPython 控制台中键入“import tabula”,它运行得很好。如果我重新启动内核,我会得到同样的错误,直到我关闭并重新打开 Spyder。

有什么想法吗?提前致谢。

0 投票
2 回答
1812 浏览

python - Tabula CalledProcessError:返回非零退出状态 2. 尽一切可能

在 python 上使用 Tabula 时,我不断收到此错误。

我已经完成了与此相关的每个 stackoverflow 问题以及博客。

我的 JDK JRE 是最新的。

java 版本 "1.8.0_161" Java(TM) SE Runtime Environment (build 1.8.0_161-b12) Java HotSpot(TM) 64-Bit Server VM (build 25.161-b12, mixed mode)

我的路径在环境变量中正确定义。

在 Anaconda 上运行的 Python 版本。

Python 3.6.5 |Anaconda, Inc

我也尝试过编码。

感谢帮助。

0 投票
2 回答
2508 浏览

java - 如何从 Java 调用 tabula (JAR)?

Tabula 看起来像是从 PDF 中提取表格数据的好工具。有很多关于如何从命令行调用它或在 Python 中使用它的示例,但似乎没有任何用于在 Java 中使用的文档。有没有人有一个有效的例子?

请注意,tabula 确实提供了源代码,但版本之间似乎很混淆。例如,GitHub 上的示例引用了 JAR 中似乎不存在的 TableExtractor 类。

https://github.com/tabulapdf/tabula-java

0 投票
0 回答
240 浏览

tabula - 如何使用表格从 pdf 表格中获取表格和单元格坐标?

我打算使用 tablula 从 pdf 文件中提取表格。我可以通过提取部分看到良好的结果,但是,我正在使用另一个库从具有字体属性的表中提取普通文本。我想将 tabula 的输出与此结合起来。这必须基于文本或表格单元格的坐标来完成。有什么方法可以从 tablua 获得这些详细信息?

0 投票
0 回答
3687 浏览

python - 如何使用 Tabula-py 获取列的标题

我正在尝试使用 tabula-py 从我的 pdf 中获取表格。pdf 中的表格没有网格线。当我尝试获取表格时,缺少标题。例如,我有一个如下的pdf。我的代码是从 Physicians and Dentists 340.2 350.3 365.8 359.4 获取的,我还需要标题 2014、2015、2016、2017。

pdf的屏幕截图

0 投票
3 回答
2777 浏览

python - Python:我尝试使用 tabula:ModuleNotFoundError: No module named 'tabula'

我尝试将模块“tabula”用于python,但显然我已经安装失败了。我只是使用了代码

但是,我收到以下错误消息:

有什么想法吗?

0 投票
1 回答
1035 浏览

python - Tabula Py 未检测 PDF 中的表格

我使用了以下代码,但没有检测到任何内容。我也尝试过其他各种 PDF 格式,但得到了相同的结果。

PDF看起来像这样 在此处输入图像描述