问题标签 [tabula-py]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Python tabula.io 错误:来自 tabula-java 的错误:未指定协议 线程“main”java.awt.AWTError 中的异常
我正在解决我在使用基于 python 的 tabula-io 库时遇到的 pdf 解析问题。
tabula-py 版本:2.2.0 包 default-jre-headless 已安装
请帮我确定我在这里做错了什么,并提出可能的解决方案来解决这个问题?
任何帮助将一如既往地受到赞赏,始终感谢开发社区......
python - 无法使用 Tabula 将 PDF 转换为 CSV
当我尝试使用 Tabula 将 PDF 文件转换为 CSV 时,我得到一个空白选项卡。我想将 PDF 的特定页面转换为 .csv 格式。我收到以下错误:
我的代码:
python - 将 pdf 转换为 excel 他们显示错误无法从“tabula”(未知位置)导入名称“read_pdf”`
当我将 pdf 转换为 excel 时,它们会显示这些错误cannot import name 'read_pdf' from 'tabula' (unknown location)
python - python:可以从命令行导入包,但不能从 jupyter notebook
我在尝试将 tabula 包导入 jupyter 笔记本时遇到了问题。我激活了我的 conda 虚拟环境,pip 安装了 tabula-py,然后运行pip freeze
. 它确认已安装 tabula-py。
当我的虚拟环境处于活动状态时,我测试了从命令行 ( import tabula
) 导入 tabula 包。一切正常!我跑出exit()
python 实例,然后跑出jupyter notebook
一个 jupyter notebook。(仍在我的虚拟环境中)
但是,在 jupyter 中,我的 import 语句不再起作用,即使我没有更改任何内容。我help('modules')
在 jupyter 中运行,现在我的包列表中不存在 tabula ????我不确定为什么它不起作用。我设置了 Java PATH,除了 jupyter notebook 外,它在任何地方都可以正常工作。
python - 无法使用表格将 PDF 文件的多个 PDF 页面转换为 CSV
我有 PDF 文件,其第一页数据格式不同,但其余页面具有相同的表格格式。我想使用 Python Tabula 将这个具有多个页面的 PDF 文件转换为 CSV 文件。
如果 PDF 只有 2 页,并且如果它有超过两页,则当前代码能够将 PDF 转换为 CSV,它会给出超出范围的错误。
我想计算 PDF 文件的 PDF 页面总数,并且取决于相同的我希望 python 脚本将 PDF 转换为 CSV 以用于不同的数据帧。
我正在使用 Linux 机器来运行这个 python 脚本。
代码如下:
请建议如何实现相同的目标。我对 Python 很陌生,因此无法把东西放在一起。
python - tabula 和 camelot 未检测到表
我试图从我认为格式不正确的 PDF 中提取表格。这些 PDF 中的表格具有表格格式,但没有用垂直边框正确括起来。我将附上示例 pdf 并与两个库一起输出。当我尝试使用 tabula 进行表格检测时,pdf 中的所有页面上都会返回一个空白数据帧。
输入 0 表示单页,1 表示全部,2 表示特定页面:2 输入页码:25 在此页面上未按表格找到表格。
当我使用 camelot 时,我使用时同样没有响应flovor='lattice'
输入 0 表示单页,1 表示所有页面,2 表示表格中的页面由 tabula 检测,3 表示特定页面:3 输入 0 表示 lattice 或 1 表示流:0 输入页码:25 在此页面上没有找到表由 camelot .
当我使用时flovor='stream'
,我得到一个数据框,其中每一行都使用制表符分隔的数据逐行读取,但它也会在该数据框中包含普通文本。
输入 0 表示单页,输入 1 表示所有页面,输入 2 表示表格中的页面由 tabula 检测,3 表示特定页面:3 输入 0 表示 lattice 或 1 表示流:1 输入页码:25
如果不存在垂直封闭表格行,我只需要一种有效的方法来检测表格并提取相同的数据。如果表格是由垂直和水平线包围的正确格式,那么 tabula 和 camelot 库都可以正常工作。
python - 如何在 python 中循环 tabula-py 数据格式
我想知道如何从 python 中的 pdf 文件中提取特定的表列。
到目前为止我的代码
我可以通过 print (dfs[2]['Section ID']) 访问单个表列我想知道如何使用 for 循环在所有数据框中搜索特定列。
我想做这样的事情