问题标签 [tabula]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
979 浏览

python - Tabula-py 字体未实现错误

PDF 文件内容为中文(字符,不是图片等),因此可能使用不同的字体。我的代码:

错误:

最终的 DataFrame 是空的。

我无法从 stackoverflow 中找到任何想法。我该如何解决这个问题?我应该导入一些字体还是有其他原因导致此错误?

0 投票
0 回答
168 浏览

python - Tabula - 阅读 PDF 的表格内容

在阅读 PDF 内容时,我收到以下错误。

文件“PDF_Conversion.py”,第 4 行,在 df = tabula.read_pdf("new_20170630.pdf")

文件“C:\Python27\lib\subprocess.py”,第 672 行,在init errread、errwrite 中)文件“C:\Python27\lib\subprocess.py”,第 882 行,在 _execute_child 启动信息中)WindowsError:[错误 2]该系统找不到指定的文件

0 投票
2 回答
41297 浏览

python - 如何使用 tabula-py 将 PDF 转换为 CSV?

在 Python 3 中,我有一个包含 6,041 页的 PDF 文件“Ativos_Fevereiro_2018_servidores_rj.pdf”。我在一台装有 Ubuntu 的机器上

在每一页的顶部都有文本,两行。在一个表格下方,带有标题和两列。每张表36行,最后一页少

在每一页的最后,表格之后,还有一行文字

我想从这个 PDF 创建一个 CSV,只考虑页面中的表格。并忽略表格前后的文字

最初我测试了 tabula-py。但它会生成一个空文件:

请问,有没有人知道另一种使用 tabula-py 来满足这种需求的方法?

或者以这种文件类型将 PDF 转换为 CSV 的另一种方法?

0 投票
1 回答
3483 浏览

python - 如何在 tabula-py 中制作页面范围?

在 Python 3 中,我有一个包含 6,041 页的 PDF 文件“Ativos_Fevereiro_2018_servidores.pdf”。我在一台装有 Ubuntu 的机器上。文件在这里:https ://drive.google.com/file/d/1P8kF0gUOVls6sOGed4R0C2PlVF5RFtU6/view?usp=sharing

在每一页的顶部都有文本,两行。在一个表格下方,带有标题和两列。每张表36行,最后一页少

在每一页的最后,表格之后,还有一行文字

我想从这个 PDF 创建一个 CSV,只考虑页面中的表格。并忽略表格前后的文字

为了避免 java-memory 错误,我想我会将文件分成 300 页的组。我在 tabula-py 中这样做了:

但我所做的范围是错误的:

请问,如何纠正范围错误?

0 投票
5 回答
8675 浏览

python - python - 如何使用python中的表格提取pdf文件中存在的多个表格?

如果 pdf 文件中只有一个表,则可以使用代码简单地提取该表

但是,如果 pdf 文件中存在多个表。我无法提取这些表。因为它只提取第一个表。

0 投票
1 回答
1298 浏览

python - 能读表头,但不能读表内容

所以这就是我想要做的——真的很简单。我有一个包含数据的 pdf 文档,我想使用 python 提取它。这是在我试图从需要定期读取的固定模板中自动提取数据的上下文中。

我正在使用 tabula-py 包,并使用“read_pdf”函数读取数据。问题是它似乎只能读取我需要的部分表格……更具体地说,它只能读取表格标题。奇怪的是,如果我使用在线表格工具阅读表格,我不会遇到这个问题。

前者产量

«无»类型的对象

而后者产生:

1 2018 Peterbilt Tracteur routier 一些 VIN 号 230 000 $

在表的标题上运行相同的查询会产生所需的结果:

前者产量

空 DataFrame 列:[Item, Année, Marque, Carrosserie, No série, Valeur actuelle] 索引:[]

而后者产生

Item Année Marque Carrosserie No série Valeur actuelle

由于 tabula-py 只是 java 包的一个包装器,我原以为两者的行为方式完全相同。我错过了什么?

Windows 10 64 位
tabula-py v1.0.0
Java v8

0 投票
3 回答
2599 浏览

python - 使用 java 1.8 的 tabula -py 中的 CalledProcessError

我正在尝试在 python 中使用 tabula -py 从 pdf 中提取表格。但是我收到了 CalledProcessError

Java版本:1.8.0_131

操作系统 - 视窗 7

这个问题(tabula-py CalledProcessError: Command '['java', '-jar')建议升级到 java 1.8。但是,我已经有了 java 1.8,但仍然出现错误。

对此的任何帮助将不胜感激。谢谢 !

0 投票
1 回答
2343 浏览

java - Tabula-Py 不工作 - 调用过程错误 - 非零退出状态 1

我正在尝试使用 Tabula-py 从 PDF 中抓取一些数据,但是我无法让它完全正常工作。我在我的 Jupyter 笔记本(在 Mac 上)中运行它:

我收到了这个错误:

因此,我阅读了一些有关安装 java 的先前问题,我这样做了。我还确保我添加了我的 bash 配置文件的路径(我对此比较陌生,所以我不确定我是否做得正确)。这是我添加到我的 bash.profile 中的行,以防有人想确保它没问题,这是我从使用中得到的which java

任何帮助将不胜感激,谢谢!

0 投票
0 回答
656 浏览

python-2.7 - 使用 Python 从 PDF 中读取特殊字符和字体

我有一个 PDF,其中某些表格行包含特殊字符和字体 ,例如. 有什么方法可以正确阅读这些内容。

我尝试了几种类型的编码utf-8, ascii, utf-8-sig, ISO-8859-1. 让我知道是否还有其他出路。

还尝试使用以下方法分别读取其中一个值并进行更改:

没有成功。任何帮助将不胜感激。

0 投票
0 回答
62 浏览

r - R tabulizer 包的矩阵尺寸列表因相同格式的 PDF 表而异

我在 Mac 上的 R 中的以下 pdf 中使用 Tabulizer 0.2.2 extract_tables。

销售<-“ http://www.greenwichct.org/upload/medialibrary/5cd/Residential-Sales-by-Address-10-10-to-10-15.pdf

测试 <- extract_tables(sales,pages=c(1:10),method="decide")

我相信每一页上的表格都是相同的,但是例如前十页的矩阵结果列表给出了具有 3 个不同维度的矩阵。列有时会连接,例如在 test[[3]] 中与列 1 和 2。

我试过设置区域,指定方法。我四处寻找如何指定列参数,但找不到任何具体的东西。甚至使用了 extract_area(),但结果相同。使用 Tabula 应用程序也存在同样的问题。

任何想法表示赞赏。