问题标签 [tabula-py]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1444 浏览

python - ImportError:无法从“tabula”Windows 10 导入名称“wrapper”

我已经安装了 Java 并设置了路径,我可以从命令行成功执行 java -version 和 javac -version。当我尝试运行以下脚本时,出现错误。

错误是

我安装了 tabula-py 并检查了 tabula 不存在。

有任何想法吗??

0 投票
1 回答
304 浏览

python - CalledProcessError:读取 PDF 文件时出现 tabula-py 错误消息

我正在尝试使用以下代码在 Spyder 中使用 tabula-py 读取 PDF 文件:

但是,当我运行它时,我得到了错误:

CalledProcessError:命令'['java','-Dfile.encoding=UTF8','-jar','tabula jar的路径','--pages','1','--guess',PDF文件的路径']' 返回非零退出状态 1。

通过升级到 Java 8 已经解决了类似的问题,但我已经在使用 Java 8,并且 Spyder 将它包含在它的环境变量中。任何人都可以帮忙吗?

0 投票
0 回答
592 浏览

pandas - Python-将数据框导出到 csv

我正在尝试使用 pandas 将数据帧文件写入 csv。我收到以下错误 AttributeError: 'list' object has no attribute 'to_csv'。我相信我正确地编写了语法,但是有人能指出我的语法在尝试将数据帧写入 csv 时哪里不正确吗?这是文件的链接:https ://s22.q4cdn.com/351912490/files/doc_financials/quarter_spanish/2018/2018.02.25_Release-4Q18_ingl%C3%A9s.pdf 感谢您的宝贵时间!

在此处输入图像描述

0 投票
2 回答
7916 浏览

python - 如何在 Python 中的 tabula.read_pdf() 函数上修复此错误

我正在尝试使用 Python(Pycharm)从 PDF 文件中提取表格。

我尝试了以下代码:

但是,我得到的错误是:

0 投票
2 回答
5999 浏览

python - python - 当Python tabula-py在表格中有换行符时如何读取pdf中的表格?

我尝试使用 Python 包 tabula-py 读取pdf 中的表格,似乎 pdf 表格单元格中的换行符会将原始单元格中的内容分成多个单元格。

我试图搜索各种python包来解决这个问题。似乎 tabula-py 是最稳定的将 pdf 表格转换为 pandas 数据的包。但是,如果这个问题无法解决,我就不得不求助于在线服务,这将为我提供理想的 excel 输出。

我希望 pdf 表可以用这个正确转换。

0 投票
2 回答
957 浏览

java - 将脚本转换为 exe 时无法执行我的脚本

我创建了一个脚本来使用 tabula-py 和 PyPDF2 从 pdf 中提取数据。当我通过 Jupyter-notebook 和 cmd 运行我的程序时,它运行良好。使用 pyinstaller 将其转换为可执行文件后,出现此错误:

我也找不到指定路径上的文件夹 _MEI175522。

我的python版本是3.7.1 Java版本是1.8 pyinstaller版本是3.4 Tabula-py是最新版本

我该如何解决这个问题?

0 投票
2 回答
1205 浏览

python - 未检测列

我正在使用 tabula-py 解析银行对帐单,其中列由垂直边距分隔,但行没有分隔。所以我使用流模式,但如果在任何页面中没有任何列的条目,则 tabula 将它们合并为一个用于代码

所以我使用列选项手动选择列

但它没有像 tabula 甚至没有读取选项输出与以前的相同抱歉,出于隐私目的,我无法发布表格。

[我的表格有点像你可以在https://i.stack.imgur.com/f40V0.png 查看图片]

0 投票
1 回答
374 浏览

tabula-py - Tabula 字体警告导致无法从文档中解析表格。这是它应该如何工作的吗?

我解析了 3 个文档以获取表格。结果如下:

  1. 文档1:完美解析。
  2. 文档 2:获得 2019 年 7 月 16 日下午 5:25:42 org.apache.pdfbox.pdmodel.font.PDType1Font 警告:使用后备字体 NimbusSanL-Bold for Univers-Bold 不确定这是否相关,但第二页已解析并第一个不是。
  3. 文档 3:2019 年 7 月 17 日上午 10:21:25 org.apache.pdfbox.pdmodel.font.PDType1Font 警告:使用后备字体 NimbusSanL-Regu for Univers。从这个没有解析任何内容。

这些是当前的表格解析设置:

是否有其他设置可以解决此特定问题。

0 投票
2 回答
2394 浏览

python-3.x - 流模式还是点阵模式,tabula-py模块中默认设置哪一个?

我想知道是否有熟悉 Python 的 tabula-py 模块的人可以帮助我解决这个问题。如果没有将格参数传递给函数,则在任何tabula-py文档中都不清楚该tabula.read_pdf()函数是否使用模式提取作为其默认设置。代码是否会根据 pdf 文本中遇到的“表格”以某种方式猜测这两种模式中的哪一种更可取,如果不是,您能否澄清两种提取模式中的哪一种被用作默认模式(因此呈现这两个参数是多余的,因为事实上,如果您将lattice设置为False那么您必须根据定义将流设置为True,反之亦然)?提前致谢。

tabula.read_pdf()将模式设置为格或流模式提取很容易,所以这不是我的问题。如果我不指定要使用哪一种,我只想知道这两种中的哪一种用作默认提取模式。

0 投票
1 回答
1042 浏览

python - 从 PDF 中提取表格

我正在尝试从 PDF 中提取表格并使用 python tabula-py 将它们写入 Excel。这是代码。

一切都很好,我得到了 output.xlsx,但问题是字体大小/样式没有像 PDF 中那样保留。有没有办法保持字体大小/样式?