问题标签 [tabula]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3447 浏览

java - 如何在 tabula 命令行中指定列坐标

我想要 PDF 中的表格数据,我正在使用以下命令获取表格数据

但是在这种情况下,两列数据在某些行中混合在一起,所以我想指定列坐标以获得完美的数据,但我不知道如何获取列坐标,所以任何人都可以用完美的命令指导我会有所帮助。

提前致谢!

0 投票
3 回答
2657 浏览

python - 抑制或删除 python tabula-py 警告

我有 python 代码使用tabula-py读取 PDF 以提取文本,然后通过 tabula-py 将其更改为表格形式。但这给了我一个警告。

此警告是关于tabula-py 的,并且Tabula-py是用 Java 编写的。所以我不能简单地使用-W ignore来抑制上述警告。

有什么办法可以消除或抑制上述警告。

0 投票
2 回答
12455 浏览

python - Tabula-py 没有正确拆分列

我刚刚发现了使用 tabula-py(当然还有 tabula-java)从 pdf 中提取表格的乐趣。我现在正在为我的工作编写一个脚本,它从 pdf 表中读取一些数据,稍微清理一下,然后将其导出到 excel 中。我每天使用的pdf格式都是一样的,而且表格总是在某个区域。为了检测该区域,我使用了 tabula.exe:我选择表格,可视化预览(看起来不错),然后导出脚本,以便查看 tabula.exe 使用的 -a 参数。然后我在 Python 的命令中使用它,即:

我使用 encoding 参数是因为标准 utf-8 返回错误,而使用 stream 方法,因为它是在 tabula.exe 中显示一个很好的提取表的方法。但是,数据框有一个问题,因为前 2 列(在 tabula.exe 的预览中正确显示为 2 个不同的列)实际上是一个单独的列,因此名称和值混合在一起。

您知道为什么同一区域会在 tabula-py 和 tabula.exe 中产生 2 个不同的结果吗?非常感谢你!

0 投票
1 回答
2368 浏览

tabula - 如何使用表格将 PDF 表格提取到数据框中

我正在尝试将 PDF 文件的“内容”页面(例如第 2 页)提取为表格,并提供一个数据框来跟踪项目及其相应的起始页码。一些人建议使用“Tabula”。我尝试了几行,但似乎没有找到 read_pdf 模块或得到一个空的数据框。感谢任何帮助使其正常工作?

myfile=' http://www.hkexnews.hk/listedco/listconews/SEHK/2017/0410/LTN201704101126_C.pdf '

0 投票
1 回答
747 浏览

python - 使用 Tabula 提取 PDF 后重新排列表格

我使用 Tabula 从 PDF 中提取表格。它的工作将减去一点清理。我遇到的最后一个问题,我不确定如何解决,如果单元格行太大(即它包含换行的文本),那么 Tabula 会将其分成两行,其中一行包含几乎所有信息,第二行包含上面行中第一个单元格文本的后半部分,但其余单元格中为“无”。

这是一个例子:

理想情况下,我可以将“House_Type”行“house”列中的文本添加到“House_Type”列上方的行中,然后删除其中包含“none”的“house”行。

最终结果看起来像这样:

我认为将其作为循环可能会起作用

但我不知道从这里去哪里,或者这是否是正确的方向

0 投票
9 回答
22088 浏览

python - tabula-py ImportError:无法导入名称'read_pdf'

我正在尝试使用 tabula-py 将表格从 pdf 传输到 excel。

当我试图

它说

ImportError:无法导入名称“read_pdf”

我发现的所有解决方案都说我必须

https://github.com/chezou/tabula-py/issues/47

Tabula-py - ImportError:没有名为 tabula 的模块

但它仍然不适合我。

有任何想法吗?

0 投票
0 回答
69 浏览

python - 如何在以下代码中忽略 pdf 阅读器中的空值?

我在 pdf 数据阅读器中有一个问题,因为下面的空单元格值代码将用于下一个单元格值..!

例如:一个学生有一个三科成绩。在主题 1:“A”级,主题 2:“”级,主题 3:“c”级。

这里对于 subj2 没有等级值并且它是空的,但这里它采用 subj 3 值“c”作为 subj 2 的值......

我该如何解决这个问题..?

请帮我 ...

0 投票
1 回答
3201 浏览

python - 表格中的 read_pdf 错误,用于读取 pdf 文件..?

我使用 tabula 包进行 pdf 阅读,但在这里我得到了这些错误

我该怎么办这个错误。请解决我的问题..

0 投票
2 回答
2647 浏览

java - tabula-py Java版本错误

我安装了 python 模块 tabula-py,它显然基于 Java 版本的 tabula。当我尝试运行它时,我收到一条错误消息,说安装了错误的 Java 版本,但是当我在 MacOS 上检查系统偏好设置时,它说我已经获得了最新版本(版本 8 更新 151)。在 github 页面上,它提到必须将 java 添加到 PATH,所以我尝试按照这些说明执行此操作http://www.baeldung.com/java-home-on-windows-7-8-10-mac-os -x-linux,但它仍然说我已经安装了 1.6 版。

任何帮助将不胜感激以使插件正常工作。

这是错误:

0 投票
1 回答
1670 浏览

java - tabula-py CalledProcessError: 命令 '['java', '-jar'

当我运行以下命令时,我正在尝试使用 tabula-py 将 pdf 转换为表格

这是错误信息