问题标签 [tabula-py]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ImportError:无法从“tabula”Windows 10 导入名称“wrapper”
我已经安装了 Java 并设置了路径,我可以从命令行成功执行 java -version 和 javac -version。当我尝试运行以下脚本时,出现错误。
错误是
我安装了 tabula-py 并检查了 tabula 不存在。
有任何想法吗??
python - CalledProcessError:读取 PDF 文件时出现 tabula-py 错误消息
我正在尝试使用以下代码在 Spyder 中使用 tabula-py 读取 PDF 文件:
但是,当我运行它时,我得到了错误:
CalledProcessError:命令'['java','-Dfile.encoding=UTF8','-jar','tabula jar的路径','--pages','1','--guess',PDF文件的路径']' 返回非零退出状态 1。
通过升级到 Java 8 已经解决了类似的问题,但我已经在使用 Java 8,并且 Spyder 将它包含在它的环境变量中。任何人都可以帮忙吗?
python - 如何在 Python 中的 tabula.read_pdf() 函数上修复此错误
我正在尝试使用 Python(Pycharm)从 PDF 文件中提取表格。
我尝试了以下代码:
但是,我得到的错误是:
java - 将脚本转换为 exe 时无法执行我的脚本
我创建了一个脚本来使用 tabula-py 和 PyPDF2 从 pdf 中提取数据。当我通过 Jupyter-notebook 和 cmd 运行我的程序时,它运行良好。使用 pyinstaller 将其转换为可执行文件后,出现此错误:
我也找不到指定路径上的文件夹 _MEI175522。
我的python版本是3.7.1 Java版本是1.8 pyinstaller版本是3.4 Tabula-py是最新版本
我该如何解决这个问题?
python - 未检测列
我正在使用 tabula-py 解析银行对帐单,其中列由垂直边距分隔,但行没有分隔。所以我使用流模式,但如果在任何页面中没有任何列的条目,则 tabula 将它们合并为一个用于代码
所以我使用列选项手动选择列
但它没有像 tabula 甚至没有读取选项输出与以前的相同抱歉,出于隐私目的,我无法发布表格。
[我的表格有点像你可以在https://i.stack.imgur.com/f40V0.png 查看图片]
tabula-py - Tabula 字体警告导致无法从文档中解析表格。这是它应该如何工作的吗?
我解析了 3 个文档以获取表格。结果如下:
- 文档1:完美解析。
- 文档 2:获得 2019 年 7 月 16 日下午 5:25:42 org.apache.pdfbox.pdmodel.font.PDType1Font 警告:使用后备字体 NimbusSanL-Bold for Univers-Bold 不确定这是否相关,但第二页已解析并第一个不是。
- 文档 3:2019 年 7 月 17 日上午 10:21:25 org.apache.pdfbox.pdmodel.font.PDType1Font 警告:使用后备字体 NimbusSanL-Regu for Univers。从这个没有解析任何内容。
这些是当前的表格解析设置:
是否有其他设置可以解决此特定问题。
python-3.x - 流模式还是点阵模式,tabula-py模块中默认设置哪一个?
我想知道是否有熟悉 Python 的 tabula-py 模块的人可以帮助我解决这个问题。如果没有将格或流参数传递给函数,则在任何tabula-py文档中都不清楚该tabula.read_pdf()
函数是否使用格或流模式提取作为其默认设置。代码是否会根据 pdf 文本中遇到的“表格”以某种方式猜测这两种模式中的哪一种更可取,如果不是,您能否澄清两种提取模式中的哪一种被用作默认模式(因此呈现这两个参数是多余的,因为事实上,如果您将lattice设置为False
那么您必须根据定义将流设置为True
,反之亦然)?提前致谢。
tabula.read_pdf()
将模式设置为格或流模式提取很容易,所以这不是我的问题。如果我不指定要使用哪一种,我只想知道这两种中的哪一种用作默认提取模式。
python - 从 PDF 中提取表格
我正在尝试从 PDF 中提取表格并使用 python tabula-py 将它们写入 Excel。这是代码。
一切都很好,我得到了 output.xlsx,但问题是字体大小/样式没有像 PDF 中那样保留。有没有办法保持字体大小/样式?