问题标签 [tabula]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

254 问题

0 投票

1 回答

3923 浏览

python-3.x - 无法使用制表符阅读 pdf

我在尝试使用 tabula(tabula-py) 读取 pdf 文件时遇到以下错误。

有没有办法像 pandas 或其他一些库一样在 python 中读取 pdf？

请建议。

我看到的一种方法是pdftotext转换..

刚刚查看了@ace 提供的链接，发现了一些相关的东西：

python-3.x tabula

2018-08-29T05:33:33.917

0 投票

2 回答

662 浏览

python - Tabula：PIP 安装程序显示“下载成功”，但无法导入

我已经使用 pip、tabula 下载了一个用于读取 pdf 文件的库：

但是，当我尝试使用以下方法导入表格时：

我得到：

我在 anaconda3 控制台上的 Spyder 上运行它。怎么了？

编辑1：

当我在终端上运行程序时，没有出现错误。但是，我很懒，不想在 Spyder 和终端之间切换。

编辑2：

我在 HighSierraOS 上使用 Mac。

编辑 3：

我有“放弃”的表格，现在正在使用 PyPDF2。我更喜欢 PyPDF 2，因为每次我阅读 pdf 文件时 tabula 都会打开 Java，这很烦人。PyPDF2 似乎更快。（不是由 PyPDF2 赞助的）

2018-09-04T23:08:55.467

0 投票

1 回答

9516 浏览

python - 提取跨越多个页面的表

我正在尝试从 pdf 中提取表格。Tabula 帮助我从 pdf 中提取表格。

目前我面临的问题是，如果任何表格跨越多个页面，Tabula 将每个新页表内容视为新表格。

有什么方法或逻辑来克服这个问题吗？

代码：

输出

解释 Tabula 以了解表格边界和下一页跨越的任何逻辑？

或者任何其他可以帮助解决这个问题的图书馆？

python screen-scraping tabula

2018-09-08T11:06:09.083

0 投票

1 回答

510 浏览

python - tabula-py 的奇怪行为

我正在使用 Python 3.5 和 Anaconda 发行版。tabula-py 版本 1.1.1 已安装。当我运行以下简单程序时：

我收到以下错误消息：

但是：如果我在运行代码之前打开 Spyder 并首先在 IPython 控制台中键入“import tabula”，它运行得很好。如果我重新启动内核，我会得到同样的错误，直到我关闭并重新打开 Spyder。

有什么想法吗？提前致谢。

python tabula

2018-09-24T19:55:22.203

0 投票

2 回答

1812 浏览

python - Tabula CalledProcessError：返回非零退出状态 2. 尽一切可能

在 python 上使用 Tabula 时，我不断收到此错误。

我已经完成了与此相关的每个 stackoverflow 问题以及博客。

我的 JDK JRE 是最新的。

java 版本 "1.8.0_161" Java(TM) SE Runtime Environment (build 1.8.0_161-b12) Java HotSpot(TM) 64-Bit Server VM (build 25.161-b12, mixed mode)

我的路径在环境变量中正确定义。

在 Anaconda 上运行的 Python 版本。

Python 3.6.5 |Anaconda, Inc

我也尝试过编码。

感谢帮助。

python tabula pdf-extraction

2018-10-04T05:22:55.450

0 投票

2 回答

2508 浏览

java - 如何从 Java 调用 tabula (JAR)？

Tabula 看起来像是从 PDF 中提取表格数据的好工具。有很多关于如何从命令行调用它或在 Python 中使用它的示例，但似乎没有任何用于在 Java 中使用的文档。有没有人有一个有效的例子？

请注意，tabula 确实提供了源代码，但版本之间似乎很混淆。例如，GitHub 上的示例引用了 JAR 中似乎不存在的 TableExtractor 类。

https://github.com/tabulapdf/tabula-java

java tabula

2018-10-18T03:35:55.857

0 投票

0 回答

240 浏览

tabula - 如何使用表格从 pdf 表格中获取表格和单元格坐标？

我打算使用 tablula 从 pdf 文件中提取表格。我可以通过提取部分看到良好的结果，但是，我正在使用另一个库从具有字体属性的表中提取普通文本。我想将 tabula 的输出与此结合起来。这必须基于文本或表格单元格的坐标来完成。有什么方法可以从 tablua 获得这些详细信息？

tabula

2018-10-23T06:59:50.723

0 投票

0 回答

3687 浏览

python - 如何使用 Tabula-py 获取列的标题

我正在尝试使用 tabula-py 从我的 pdf 中获取表格。pdf 中的表格没有网格线。当我尝试获取表格时，缺少标题。例如，我有一个如下的pdf。我的代码是从 Physicians and Dentists 340.2 350.3 365.8 359.4 获取的，我还需要标题 2014、2015、2016、2017。

pdf的屏幕截图

python header tabula

2018-11-01T06:18:29.163

0 投票

3 回答

2777 浏览