问题标签 [tabula-py]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

90 问题

0 投票

0 回答

210 浏览

python - 将 python 脚本转换为 .exe 后 Tabula 不起作用

我正在使用 tabula 和 python 编写用于网络抓取的脚本。我测试了它，它工作，我需要将.py文件转换为.exe，以便它可以在我公司的计算机上运行（我的办公室禁止安装python）。但是，当我使用 auto-py-to-exe 转换它时，tabula 停止工作。它返回以下错误消息：

我尝试将 tabula 文件夹放入与 .exe 文件相同的目录中。但是，它仍然不起作用

python tabula tabula-py

2019-08-27T09:25:17.900

0 投票

0 回答

932 浏览

python - 使用 tabula-py 读取带有空白单元格的表格

我正在尝试使用 tabula-py 将表格 10-K 中的大表（附有示例）加载到 Python 中。表格没有清晰的边框，并且有很多空白单元格，这会导致几个问题。

我的代码是

使用stream=True，我得到了所有数据，但多行中的信息被识别为单独的条目。有了lattice=True，那么多行的单元格就被正确识别为一个单元格，但现在结果漏掉了很多观察。

有没有更好的方法来设置选项？我尝试了很多选择，但现在我被卡住了。任何帮助深表感谢。最好的，

我正在阅读的表格示例

python pandas tabula-py

2019-09-18T07:11:24.940

0 投票

0 回答

675 浏览

python - Tabula-py 通过 300 dpi 的区域坐标像素提取表格

我正在使用 tabula-py 通过提供一个确切的区域来从 pdf 中提取表格，该区域可以保持它们的位置。

tabula-py 使用 72 dpi 区域坐标和点，但我有 300 dpi 像素坐标，这些坐标是从经过训练的 ML 模型中提取的。

有没有一种方法可以在 tabula-py 表格提取中使用我的区域（具有 300 dpi 像素位置）和他们的方法（read_pdf 或 convert_into 您传递具有 72 dpi 点坐标的区域）

python pdf tabula tabula-py

2019-10-11T09:27:24.200

0 投票

1 回答

587 浏览

python - 在 python spyder 中找不到模块“Tabula”

我试图运行这段代码：

得到了这个：

这就是我的蟒蛇所说的：

我认为是关于目录的东西，但是什么？

python python-3.x anaconda python-module tabula-py

2019-10-12T19:17:02.230

0 投票

2 回答

1508 浏览

python - 使用 tabula-py 读取多个 PDF 页面时出错

我正在尝试阅读一个多页 PDF 文件，该文件在每页的同一区域中包含一个表格。页数可能会根据正在读取的文件而变化。

我正在尝试下面的代码，但它不起作用：

返回错误：

在 read_pdf 上，如果我将 pages='all' 更改为 pages=1、pages=2 等，它可以工作，但我需要指定必须读取所有页面，并且这个数字可以根据文件而改变。

有人对此有任何线索吗？

编辑：我设法通过插入 multiple_tables=True 参数来读取表格。现在的代码是这样的：

我得到这个结果：

我如何把它变成一个 DateFrame？

python dataframe parsing pdf tabula-py

2019-11-10T14:28:08.810

0 投票

1 回答

121 浏览

python-3.x - 预期类型“dict”，用于“str”而不是 PyCharm。尝试使用表格将所有 PDF 页面转换为 CSV？

我的代码只能转换我的 PDF 第一张表的一个上部，当我要转换所有页面时，我不能，因为我的代码中有错误。

我得到的错误是关于页面功能

当我写它时，PyCharm 说预期类型'dict'，而不是'str'

我在我的 PyCharm 中使用 python 3.x 版本。

有没有其他方法可以选择所有页面来转换不仅是第一页的上侧

python-3.x pdf pycharm tabula tabula-py

2019-11-14T14:50:22.937

0 投票

1 回答

2101 浏览

python-3.x - 无法安装 tabula-py

我对 Python 没有太多经验，需要一些帮助。我正在尝试安装不同的软件包但没有成功。最近我尝试使用安装 tabula-pypip install tabula-py但我一直得到相同的响应。

如何解决这个问题？

python-3.x tabula-py

2019-12-03T12:57:25.107

0 投票

1 回答

4398 浏览

python - 使用 tabula 和 python 读取 pdf 文件时数据丢失

我有一个包含多个文本和表格的 pdf，其中一行包含如下所示：

现在我使用 tabula-py 来解析内容，但结果丢失了一些东西（意味着你可以看到第一个字符或数字丢失）。

实际上我的原始 pdf 有很多文本和表格。我也尝试了其他行，在那里我得到了正确的结果。

样本：

在表格中阅读表格时，我设置了

该行是简单的文本类型，没有图像和所有。不知道为什么这个特定的行数据会失败。我已将类似的逻辑应用于我得到正确结果的其他行。请建议。

python pdf tabula tabula-py

2019-12-07T09:13:55.393

0 投票

1 回答

102 浏览

python-3.x - 将单列内容分成多列？

我正在使用表格 python 将 pdf 文件转换为表格的项目。在扫描表格时检测到这样的表格，但是表格这样的列如下图，而表格的实际图像如下图_2

是否有任何方法使用 python 将单列分成单独的列，如第二张图片。

python-3.x pandas tabula-py

2019-12-18T03:25:45.110

0 投票

1 回答

361 浏览

flutter - 如何在 Flutter 中读取 pdf 表格

在 python 中，tabula-py 可用于从 pdf 文件中提取表格。有没有办法在颤振应用程序中做同样的事情？

flutter pdf tabula tabula-py

2019-12-30T03:05:22.493

1 2 3 4 5 6 7 8 9 10