问题标签 [tabula-py]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
76 浏览

python - 当java调用python脚本时tabula-py无法读取文件

我正在开发一个基于 java 的项目。并且java程序将运行命令来调用python脚本。

python脚本用于tabula-py读取pdf文件并返回数据。

当我在终端(pytho3 xxx.py)中直接调用它时,我尝试了 python 脚本的工作

但是,当我尝试从 java 调用 python 脚本时,它会抛出错误:

我试图以完整路径调用脚本,以完整路径提供pdf文件,尝试过sys.append(python script path),但它们都不起作用。

我试过在java命令中调用tabula,即java -Dfile.encoding=UTF8 -jar /home/ubuntu/.local/lib/python3.8/site-packages/tabula/tabula-1.0.5-jar-与-dependencies.jar “file_path”

它可以工作并且可以读取文件。然而回到java调用python脚本是行不通的

有什么方法可以解决这个问题吗?在我的情况下,在 java 程序中使用表格不是一个选项

0 投票
1 回答
27 浏览

python - 无法从 PDF 文件中提取 MCC 详细信息

我无法从 PDF 中提取 MCC 详细信息。我可以用我的代码提取其他数据。

我试图检索“移动国家代码(MCC)”详细信息的逻辑相同。但是 Pandas 数据框显示的是不同的数据,而不是 PDF 中的数据。

熊猫输出如下: pandas_output

pdf文件中的实际内容是: 实际_pdf

0 投票
0 回答
38 浏览

python - 无法使用python检索CSV格式的数据帧

我想将 PDF 文件转换为 CSV。我正在使用 Tabula-py。但是,输出 CSV 包含列名而不是其内容。请指导告诉我我缺少什么以及如何将数据框保存到 CSV 文件中,以便在 CSV 文件中检索整个数据。

0 投票
0 回答
16 浏览

python-3.x - 使用 Python Tabula-py 从抓取的 PDF 表数据中获取奇怪的值

将此PDF保存到本地目录为“MIX_AESR_2562.pdf”。我想在 p646 和 p647 上刮桌子。这是脚本:

奇怪的结果

第 646 页的结果看起来不错,但 p647 的结果完全没有意义。我从哪里开始调查?

0 投票
0 回答
21 浏览

python - Tabula-py 导出会聚并断开列-如何修复数据框

我正在尝试将 pdf 发票读入 csv。发票有 4 列。

发票如下所示:

描述 体积 单价 费用
直接录入服务 DETCREDT JAN 直接录入信用交易 4,157 0.00 美元 0.00 美元
DERECITM JAN 召回物品 3 0.00 美元 0.00 美元
DETCREPR JAN 直接输入工资单交易 5,882 是的 0.00 美元

运行以下代码后:

收到的输出奇怪地显示 tabula.convert_into("/content/invoice.pdf", "output.csv", stream=True, pages='all')

描述 体积 单价 费用
直接录入服务 DETCREDT JAN 直接录入信用交易 4,157 0.00 美元 0.00 美元
DERECITM JAN 召回第 3 项 0.00 美元 0.00 美元
DETCREPR JAN 直接输入工资单交易 5,882 0.00 美元 0.00 美元
  1. 如何将描述后面的数字分成单独的列?2.如何将描述中的代码 DERECITM ,DETCREPR,DETCREDT 放入一个名为代码的单独列中?

  2. 如何将表格转换为数据框并将其导出?因为我试过

    df.to_csv(r'/content/invoice.csv', index=False, header=True) 但我得到 df 是一个列表的错误,这个导出什么也没产生。

我才华横溢的朋友们,我将非常感谢您帮助我解决这个问题。

0 投票
1 回答
73 浏览

python-3.x - tabula.errors.JavaNotFoundError 在谷歌云功能中使用 tabula 时出错

对于我的应用程序,我使用 tabula 包将 pdf 转换为 csv。我写的云函数是在python3.7中的。我把它写在 requirements.txt 文件中。但我收到了这个错误

需求文件

主文件

我该如何解决这个问题?有什么替代方案吗?

0 投票
1 回答
53 浏览

python - 合并单元格,在同一列,在同一个 df-Python

我正在尝试将两个单元格合并在一起。原因是“机箱”下的每个单元都应该是一个字母数字(ABCD123456),但是提供的 PO 偶尔会将最后一个数字移到下一行(所述行上没有其他数据)使得数据看起来像这样示例我最初尝试创建一个查看单元格的语句,确认它小于一个数字,然后查看下一个单元格,并将两者合并。从来没有达到甚至接近于表现出任何结果。然后我决定复制数据框,移动第二个数据框(因此丢失的数字在同一行),并将它们合并在一起。这就是我现在的位置。错误信息这是我在 Python 中的第一个真正的代码,所以我相当肯定我在做低效的事情,所以一定要让我知道我可以改进的地方。

目前我有这个...

Col1 机壳 其他栏目... 其他栏目 2...
ABCD12345 美国广播公司 123
6
WXYZ987654 GHI 456
QRSTU654987 789
MNOP999999 XYZ

最终目标是这个...

Col1 机壳 其他栏目... 其他栏目 2...
ABCD12345 6 美国广播公司 123
WXYZ987654 GHI 456
QRSTU654987 789
MNOP999999 XYZ
0 投票
0 回答
12 浏览

python - Tabula 转换为 csv - 连接问题

你好堆栈溢出朋友!

我在使用制表符转换 pdf 文件时遇到了一些麻烦。

这是代码:

我收到以下错误: ValueError:连接轴的所有输入数组维度必须完全匹配,但沿着维度 1,索引 0 处的数组大小为 2,索引 1 处的数组大小为 3

这就是pdf的样子

0 投票
1 回答
14 浏览

python-3.x - Pdfplumber - 以 pdf 格式提取表格,没有任何边框

我正在尝试将如图所示的表格提取到数据框中。我尝试使用 tabula-py 提取代码,但 read_pdf 返回了我 []。不确定 tabula-py 是否是正确的模块。任何人都可以帮忙吗?

0 投票
0 回答
8 浏览

python - 在 tabula-py 中读取 Gdrive 路径

我正在使用 tabula-py 从 PDF 中读取表格,但我不想将文件从 Gdrive 下载到我的工作目录,而是直接使用 Gdrive 文件路径。

但我收到以下错误:

命令'['java', '-Dfile.encoding=UTF8', '-jar', '/opt/conda/lib/python3.7/site-packages/tabula/tabula-1.0.5-jar-with-dependencies .jar'、'--pages'、'all'、'--guess'、'--format'、'JSON'、'/tmp/1a0aad07-88cc-4060-9df4-a52f780a97fb.pdf']' 返回非-零退出状态1。

有什么方法可以直接从 Gdrive 读取文件(在 python 中使用 Gdrive API 会给我 PDF 文件的文本内容,这无济于事)?