问题标签 [tabula]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
151 浏览

python - 如何使用 Python 重新格式化 Pandas 中的数据框?

我对 Pandas 和 Python 很陌生,但有扎实的编码背景。我决定选择这个,因为它可以帮助我在工作中自动化某些财务报告。

为了让您了解我的问题的基本背景,我正在使用 PDF 并使用 Tabula 将其重新格式化为 CSV 文件,该文件运行良好,但给我带来了某些格式问题。这些报告包含大约 60 页的 PDF 文件,我将其导出为 CSV,然后尝试使用 Pandas 在 Python 中操作数据。

问题:当我重新格式化数据时,我得到一个看起来像这样的 CSV 文件 -

从 PDF 导出的 CSV 数据

这里的问题是某些表格正在发生变化,我认为这是由于其中的页面数量和多个标题。

我是否可以使用 Pandas 重新格式化这些数据,并基本上为如何重新格式化创建一套规则?

  • 基本上,我想根据空格之类的东西将错放的行移回各自的位置。
  • 我是否可以删除带有某些字符串的行 - 删除额外/不必要的标题。
  • 我可以通过搜索带有“总计”的行并将其放置在其他位置以某种方式将“总计”数据保存在底部吗?

本质上,有没有办法通过一组命令(不指定行号 - 因为这每天都在变化)对这些数据进行分区,然后相应地重新定位它,以便我可以根据需要操作数据?

0 投票
2 回答
10870 浏览

python - Tabula-py - pages 参数

我将如何将第 2 页转换到最后?从第 1 页到其余页面的转换的“区域”会发生变化。

我正在使用 Python 包装器 tabula-py

提前致谢!

0 投票
0 回答
1458 浏览

python - 在 Heroku 中下载一个临时文件然后读取它

我正在尝试从一个站点下载 PDF 然后阅读它,所有这些都在一个运行在 Heroku 中的单个工作人员测功机上的单个 python 脚本中。但是,我的脚本要求将该文件临时存储在临时文件系统中以便读取。

文档中,这应该是可能的:

每个 dyno 都有自己的临时文件系统,以及最近部署的代码的新副本。在 dyno 的生命周期中,它的运行进程可以将文件系统用作临时暂存器,但是任何其他 dyno 中的进程都看不到写入的文件,并且在停止或重新启动 dyno 时,任何写入的文件都将被丢弃。

然而,无论我做什么,它似乎都会抛出一个错误,类似于我在本地机器上运行它并且文件不存在时得到的错误(否则脚本在本地机器上运行良好)。

请参阅下面我的代码的相关部分,我正在使用 Tabula 将 PDF 处理为 CSV。

另一点需要注意的是,在 Heroku 中检查文件大小时,它会返回正确的值,因此文件已下载并在文件系统中,但由于某种原因无法被 Tabula 包装器读取。

我的问题类似于这个问题,除了我在单个测功机上运行脚本,这应该可以实现。

0 投票
1 回答
296 浏览

java - 如何在 Tabula 中使用命令行提取多个表?

在 tabula web 界面中,您可以选择多个不同坐标的表格,直接命令可以吗?

0 投票
0 回答
754 浏览

python-3.x - 使用 Tabula 读取 PDF 表格时出现异常

我正在使用 tabula-0.9.2 和 Python 3.6.1 和 java 版本“1.8.0_45”从一些 PDF 中提取表格,如下所示:

在大多数情况下,这是可行的,但我遇到了其中几个例外。任何人都知道如何找出造成这种情况的根本原因?是否有我遗漏的 read_pdf_table 参数可能是这个问题?我想我所有的依赖版本都是正确的,除非我遗漏了什么?请指教。谢谢。

0 投票
2 回答
10564 浏览

python - Python tabula 模块中的这个错误是什么?

我不断收到此错误。我正在努力——

Mac 塞拉利昂 10.8

Python 3.6.2

表格 1.0.5

这是我的代码,它给了我一个错误。


更新:

当我尝试这样做时,from tabula import wrapper我得到了错误:


更新:

根据@L 修复评论。阿尔瓦雷斯

收到以下错误:

0 投票
5 回答
20610 浏览

python - Tabula 按区域坐标提取表格

我们可以选择通过指定其坐标从 PDF 文档中提取表格。对于 windows 用户,为了获取坐标,您必须将 PDF 文件上传到 Tabula 网页并导出包含坐标的脚本,然后将坐标输入到您的代码中。对于 Mac 用户,您只需使用 Preview 应用程序和裁剪检查器。我只是想知道是否有任何第三方程序或插件向 Windows 用户提供此功能?我认为这在以下情况下会很方便:

  1. 当您无法访问互联网时。
  2. 我认为预览应用程序会更准确,因为我经历过 Tabula 网页产生的不准确坐标。

如果有人能指出我在哪里可以找到这样的东西,我将不胜感激。非常感谢。

0 投票
1 回答
168 浏览

python - 如何在 Tabula Java 中指定从哪个目录获取文件

我在python中有这段代码,我用它来打开子进程模块并继续从那里获取数据,但我不知道如何从不同的目录中对文件进行OCR。我已经尝试将完整的文件路径放到文件名应该在代码中的目录中,但它似乎并没有奏效。如何在 Tabula 中指定从哪个目录获取文件?

0 投票
3 回答
12222 浏览

python - Tabula-py - ImportError:没有名为 tabula 的模块

我正在尝试使用 Tabula-py 阅读 pdf。我通过安装 tabula-pypip install tabula-py

我还安装了所需的依赖项

我的代码目前如下:

我收到以下错误:

我在这里缺少的任何输入?

0 投票
0 回答
571 浏览

python - 下载表格时出现 setuptools 版本冲突

我正在尝试将我的项目移动到另一台机器上,但在设置时遇到了一些困难。这里的问题是:

当我python setup.py install为 package 运行命令时tabula,我收到一条错误消息:

这是在我的工作计算机上,所以我真的不能简单地通过 pip 或类似的东西来做这个超级。有什么建议么?