问题标签 [tabula]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - 无法使用制表符阅读 pdf
我在尝试使用 tabula(tabula-py) 读取 pdf 文件时遇到以下错误。
有没有办法像 pandas 或其他一些库一样在 python 中读取 pdf?
请建议。
我看到的一种方法是pdftotext
转换..
刚刚查看了@ace 提供的链接,发现了一些相关的东西:
python - Tabula:PIP 安装程序显示“下载成功”,但无法导入
我已经使用 pip、tabula 下载了一个用于读取 pdf 文件的库:
但是,当我尝试使用以下方法导入表格时:
我得到:
我在 anaconda3 控制台上的 Spyder 上运行它。怎么了?
编辑1:
当我在终端上运行程序时,没有出现错误。但是,我很懒,不想在 Spyder 和终端之间切换。
编辑2:
我在 HighSierraOS 上使用 Mac。
编辑 3:
我有“放弃”的表格,现在正在使用 PyPDF2。我更喜欢 PyPDF 2,因为每次我阅读 pdf 文件时 tabula 都会打开 Java,这很烦人。PyPDF2 似乎更快。(不是由 PyPDF2 赞助的)
python - 提取跨越多个页面的表
我正在尝试从 pdf 中提取表格。Tabula 帮助我从 pdf 中提取表格。
目前我面临的问题是,如果任何表格跨越多个页面,Tabula 将每个新页表内容视为新表格。
有什么方法或逻辑来克服这个问题吗?
代码:
输出
解释 Tabula 以了解表格边界和下一页跨越的任何逻辑?
或者任何其他可以帮助解决这个问题的图书馆?
python - tabula-py 的奇怪行为
我正在使用 Python 3.5 和 Anaconda 发行版。tabula-py 版本 1.1.1 已安装。当我运行以下简单程序时:
我收到以下错误消息:
但是:如果我在运行代码之前打开 Spyder 并首先在 IPython 控制台中键入“import tabula”,它运行得很好。如果我重新启动内核,我会得到同样的错误,直到我关闭并重新打开 Spyder。
有什么想法吗?提前致谢。
python - Tabula CalledProcessError:返回非零退出状态 2. 尽一切可能
在 python 上使用 Tabula 时,我不断收到此错误。
我已经完成了与此相关的每个 stackoverflow 问题以及博客。
我的 JDK JRE 是最新的。
java 版本 "1.8.0_161" Java(TM) SE Runtime Environment (build 1.8.0_161-b12) Java HotSpot(TM) 64-Bit Server VM (build 25.161-b12, mixed mode)
我的路径在环境变量中正确定义。
在 Anaconda 上运行的 Python 版本。
Python 3.6.5 |Anaconda, Inc
我也尝试过编码。
感谢帮助。
java - 如何从 Java 调用 tabula (JAR)?
Tabula 看起来像是从 PDF 中提取表格数据的好工具。有很多关于如何从命令行调用它或在 Python 中使用它的示例,但似乎没有任何用于在 Java 中使用的文档。有没有人有一个有效的例子?
请注意,tabula 确实提供了源代码,但版本之间似乎很混淆。例如,GitHub 上的示例引用了 JAR 中似乎不存在的 TableExtractor 类。
tabula - 如何使用表格从 pdf 表格中获取表格和单元格坐标?
我打算使用 tablula 从 pdf 文件中提取表格。我可以通过提取部分看到良好的结果,但是,我正在使用另一个库从具有字体属性的表中提取普通文本。我想将 tabula 的输出与此结合起来。这必须基于文本或表格单元格的坐标来完成。有什么方法可以从 tablua 获得这些详细信息?
python - 如何使用 Tabula-py 获取列的标题
我正在尝试使用 tabula-py 从我的 pdf 中获取表格。pdf 中的表格没有网格线。当我尝试获取表格时,缺少标题。例如,我有一个如下的pdf。我的代码是从 Physicians and Dentists 340.2 350.3 365.8 359.4 获取的,我还需要标题 2014、2015、2016、2017。
python - Python:我尝试使用 tabula:ModuleNotFoundError: No module named 'tabula'
我尝试将模块“tabula”用于python,但显然我已经安装失败了。我只是使用了代码
但是,我收到以下错误消息:
有什么想法吗?