问题标签 [tabula-py]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
210 浏览

python - 将 python 脚本转换为 .exe 后 Tabula 不起作用

我正在使用 tabula 和 python 编写用于网络抓取的脚本。我测试了它,它工作,我需要将.py文件转换为.exe,以便它可以在我公司的计算机上运行(我的办公室禁止安装python)。但是,当我使用 auto-py-to-exe 转换它时,tabula 停止工作。它返回以下错误消息:

我尝试将 tabula 文件夹放入与 .exe 文件相同的目录中。但是,它仍然不起作用

0 投票
0 回答
932 浏览

python - 使用 tabula-py 读取带有空白单元格的表格

我正在尝试使用 tabula-py 将表格 10-K 中的大表(附有示例)加载到 Python 中。表格没有清晰的边框,并且有很多空白单元格,这会导致几个问题。

我的代码是

使用stream=True,我得到了所有数据,但多行中的信息被识别为单独的条目。有了lattice=True,那么多行的单元格就被正确识别为一个单元格,但现在结果漏掉了很多观察。

有没有更好的方法来设置选项?我尝试了很多选择,但现在我被卡住了。任何帮助深表感谢。最好的,

我正在阅读的表格示例

0 投票
0 回答
675 浏览

python - Tabula-py 通过 300 dpi 的区域坐标像素提取表格

我正在使用 tabula-py 通过提供一个确切的区域来从 pdf 中提取表格,该区域可以保持它们的位置。

tabula-py 使用 72 dpi 区域坐标和点,但我有 300 dpi 像素坐标,这些坐标是从经过训练的 ML 模型中提取的。

有没有一种方法可以在 tabula-py 表格提取中使用我的区域(具有 300 dpi 像素位置)和他们的方法(read_pdf 或 convert_into 您传递具有 72 dpi 点坐标的区域)

0 投票
1 回答
587 浏览

python - 在 python spyder 中找不到模块“Tabula”

我试图运行这段代码:

得到了这个:

这就是我的蟒蛇所说的:

我认为是关于目录的东西,但是什么?

0 投票
2 回答
1508 浏览

python - 使用 tabula-py 读取多个 PDF 页面时出错

我正在尝试阅读一个多页 PDF 文件,该文件在每页的同一区域中包含一个表格。页数可能会根据正在读取的文件而变化。

我正在尝试下面的代码,但它不起作用:

返回错误:

在 read_pdf 上,如果我将 pages='all' 更改为 pages=1、pages=2 等,它可以工作,但我需要指定必须读取所有页面,并且这个数字可以根据文件而改变。

有人对此有任何线索吗?

编辑:我设法通过插入 multiple_tables=True 参数来读取表格。现在的代码是这样的:

我得到这个结果:

我如何把它变成一个 DateFrame?

0 投票
1 回答
121 浏览

python-3.x - 预期类型“dict”,用于“str”而不是 PyCharm。尝试使用表格将所有 PDF 页面转换为 CSV?

我的代码只能转换我的 PDF 第一张表的一个上部,当我要转换所有页面时,我不能,因为我的代码中有错误。

我得到的错误是关于页面功能

当我写它时,PyCharm 说预期类型'dict',而不是'str'

我在我的 PyCharm 中使用 python 3.x 版本。

有没有其他方法可以选择所有页面来转换不仅是第一页的上侧

0 投票
1 回答
2101 浏览

python-3.x - 无法安装 tabula-py

我对 Python 没有太多经验,需要一些帮助。我正在尝试安装不同的软件包但没有成功。最近我尝试使用安装 tabula-pypip install tabula-py但我一直得到相同的响应。

如何解决这个问题?

0 投票
1 回答
4398 浏览

python - 使用 tabula 和 python 读取 pdf 文件时数据丢失

我有一个包含多个文本和表格的 pdf,其中一行包含如下所示:

现在我使用 tabula-py 来解析内容,但结果丢失了一些东西(意味着你可以看到第一个字符或数字丢失)。

实际上我的原始 pdf 有很多文本和表格。我也尝试了其他行,在那里我得到了正确的结果。

样本 :

在表格中阅读表格时,我设置了

该行是简单的文本类型,没有图像和所有。不知道为什么这个特定的行数据会失败。我已将类似的逻辑应用于我得到正确结果的其他行。请建议。

0 投票
1 回答
102 浏览

python-3.x - 将单列内容分成多列?

我正在使用表格 python 将 pdf 文件转换为表格的项目。在扫描表格时检测到这样的表格,但是表格这样的列如下图,图片1而表格的实际图像如下图_2图片1

是否有任何方法使用 python 将单列分成单独的列,如第二张图片。

0 投票
1 回答
361 浏览

flutter - 如何在 Flutter 中读取 pdf 表格

在 python 中,tabula-py 可用于从 pdf 文件中提取表格。有没有办法在颤振应用程序中做同样的事情?