“tabula”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

151 浏览

python - 如何使用 Python 重新格式化 Pandas 中的数据框？

我对 Pandas 和 Python 很陌生，但有扎实的编码背景。我决定选择这个，因为它可以帮助我在工作中自动化某些财务报告。

为了让您了解我的问题的基本背景，我正在使用 PDF 并使用 Tabula 将其重新格式化为 CSV 文件，该文件运行良好，但给我带来了某些格式问题。这些报告包含大约 60 页的 PDF 文件，我将其导出为 CSV，然后尝试使用 Pandas 在 Python 中操作数据。

问题：当我重新格式化数据时，我得到一个看起来像这样的 CSV 文件 -

这里的问题是某些表格正在发生变化，我认为这是由于其中的页面数量和多个标题。

我是否可以使用 Pandas 重新格式化这些数据，并基本上为如何重新格式化创建一套规则？

基本上，我想根据空格之类的东西将错放的行移回各自的位置。
我是否可以删除带有某些字符串的行 - 删除额外/不必要的标题。
我可以通过搜索带有“总计”的行并将其放置在其他位置以某种方式将“总计”数据保存在底部吗？

本质上，有没有办法通过一组命令（不指定行号 - 因为这每天都在变化）对这些数据进行分区，然后相应地重新定位它，以便我可以根据需要操作数据？

2017-06-13T18:22:19.263

0 投票

2 回答

10870 浏览

python - Tabula-py - pages 参数

我将如何将第 2 页转换到最后？从第 1 页到其余页面的转换的“区域”会发生变化。

我正在使用 Python 包装器 tabula-py

提前致谢！

python csv tabula

2017-06-14T13:03:34.193

0 投票

0 回答

1458 浏览

python - 在 Heroku 中下载一个临时文件然后读取它

我正在尝试从一个站点下载 PDF 然后阅读它，所有这些都在一个运行在 Heroku 中的单个工作人员测功机上的单个 python 脚本中。但是，我的脚本要求将该文件临时存储在临时文件系统中以便读取。

从文档中，这应该是可能的：

每个 dyno 都有自己的临时文件系统，以及最近部署的代码的新副本。在 dyno 的生命周期中，它的运行进程可以将文件系统用作临时暂存器，但是任何其他 dyno 中的进程都看不到写入的文件，并且在停止或重新启动 dyno 时，任何写入的文件都将被丢弃。

然而，无论我做什么，它似乎都会抛出一个错误，类似于我在本地机器上运行它并且文件不存在时得到的错误（否则脚本在本地机器上运行良好）。

请参阅下面我的代码的相关部分，我正在使用 Tabula 将 PDF 处理为 CSV。

另一点需要注意的是，在 Heroku 中检查文件大小时，它会返回正确的值，因此文件已下载并在文件系统中，但由于某种原因无法被 Tabula 包装器读取。

我的问题类似于这个问题，除了我在单个测功机上运行脚本，这应该可以实现。

python heroku tabula

2017-06-22T14:37:05.570

0 投票

1 回答

296 浏览

java - 如何在 Tabula 中使用命令行提取多个表？

在 tabula web 界面中，您可以选择多个不同坐标的表格，直接命令可以吗？

java extract tabula

2017-07-04T14:07:41.493

0 投票

0 回答

754 浏览

python-3.x - 使用 Tabula 读取 PDF 表格时出现异常

我正在使用 tabula-0.9.2 和 Python 3.6.1 和 java 版本“1.8.0_45”从一些 PDF 中提取表格，如下所示：

在大多数情况下，这是可行的，但我遇到了其中几个例外。任何人都知道如何找出造成这种情况的根本原因？是否有我遗漏的 read_pdf_table 参数可能是这个问题？我想我所有的依赖版本都是正确的，除非我遗漏了什么？请指教。谢谢。

python-3.x pdf tabula

2017-07-13T21:13:28.163

0 投票

2 回答

10564 浏览

python - Python tabula 模块中的这个错误是什么？

我不断收到此错误。我正在努力——

Mac 塞拉利昂 10.8

Python 3.6.2

表格 1.0.5

这是我的代码，它给了我一个错误。

更新：

当我尝试这样做时，from tabula import wrapper我得到了错误：

更新：

根据@L 修复评论。阿尔瓦雷斯

收到以下错误：

python pandas tabula

2017-07-27T02:18:36.443

0 投票

5 回答

20610 浏览

python - Tabula 按区域坐标提取表格

我们可以选择通过指定其坐标从 PDF 文档中提取表格。对于 windows 用户，为了获取坐标，您必须将 PDF 文件上传到 Tabula 网页并导出包含坐标的脚本，然后将坐标输入到您的代码中。对于 Mac 用户，您只需使用 Preview 应用程序和裁剪检查器。我只是想知道是否有任何第三方程序或插件向 Windows 用户提供此功能？我认为这在以下情况下会很方便：

当您无法访问互联网时。
我认为预览应用程序会更准确，因为我经历过 Tabula 网页产生的不准确坐标。

如果有人能指出我在哪里可以找到这样的东西，我将不胜感激。非常感谢。

python pdf tabula

2017-08-02T09:36:19.440

0 投票

1 回答

168 浏览

python - 如何在 Tabula Java 中指定从哪个目录获取文件

我在python中有这段代码，我用它来打开子进程模块并继续从那里获取数据，但我不知道如何从不同的目录中对文件进行OCR。我已经尝试将完整的文件路径放到文件名应该在代码中的目录中，但它似乎并没有奏效。如何在 Tabula 中指定从哪个目录获取文件？

python linux tabula

2017-08-02T18:49:51.637

0 投票

3 回答

12222 浏览

python - Tabula-py - ImportError：没有名为 tabula 的模块

我正在尝试使用 Tabula-py 阅读 pdf。我通过安装 tabula-pypip install tabula-py

我还安装了所需的依赖项

我的代码目前如下：

我收到以下错误：

我在这里缺少的任何输入？

python tabula

2017-08-09T16:49:44.417

0 投票

0 回答

571 浏览

python - 下载表格时出现 setuptools 版本冲突

我正在尝试将我的项目移动到另一台机器上，但在设置时遇到了一些困难。这里的问题是：

当我python setup.py install为 package 运行命令时tabula，我收到一条错误消息：

这是在我的工作计算机上，所以我真的不能简单地通过 pip 或类似的东西来做这个超级。有什么建议么？

python pip setuptools tabula

2017-08-21T14:52:52.480

问题标签 [tabula]

Reference