问题标签 [tabula-py]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

90 问题

0 投票

1 回答

76 浏览

python - 当java调用python脚本时tabula-py无法读取文件

我正在开发一个基于 java 的项目。并且java程序将运行命令来调用python脚本。

python脚本用于tabula-py读取pdf文件并返回数据。

当我在终端（pytho3 xxx.py）中直接调用它时，我尝试了 python 脚本的工作

但是，当我尝试从 java 调用 python 脚本时，它会抛出错误：

我试图以完整路径调用脚本，以完整路径提供pdf文件，尝试过sys.append(python script path)，但它们都不起作用。

我试过在java命令中调用tabula，即java -Dfile.encoding=UTF8 -jar /home/ubuntu/.local/lib/python3.8/site-packages/tabula/tabula-1.0.5-jar-与-dependencies.jar “file_path”

它可以工作并且可以读取文件。然而回到java调用python脚本是行不通的

有什么方法可以解决这个问题吗？在我的情况下，在 java 程序中使用表格不是一个选项

2021-11-29T04:09:13.127

0 投票

1 回答

27 浏览

python - 无法从 PDF 文件中提取 MCC 详细信息

我无法从 PDF 中提取 MCC 详细信息。我可以用我的代码提取其他数据。

我试图检索“移动国家代码（MCC）”详细信息的逻辑相同。但是 Pandas 数据框显示的是不同的数据，而不是 PDF 中的数据。

熊猫输出如下：

pdf文件中的实际内容是：

python pandas tabula-py

2021-12-04T04:50:55.000

0 投票

0 回答

38 浏览

python - 无法使用python检索CSV格式的数据帧

我想将 PDF 文件转换为 CSV。我正在使用 Tabula-py。但是，输出 CSV 包含列名而不是其内容。请指导告诉我我缺少什么以及如何将数据框保存到 CSV 文件中，以便在 CSV 文件中检索整个数据。

python pandas dataframe tabula-py

2021-12-06T13:04:20.023

0 投票

0 回答

16 浏览

python-3.x - 使用 Python Tabula-py 从抓取的 PDF 表数据中获取奇怪的值

将此PDF保存到本地目录为“MIX_AESR_2562.pdf”。我想在 p646 和 p647 上刮桌子。这是脚本：

奇怪的结果

第 646 页的结果看起来不错，但 p647 的结果完全没有意义。我从哪里开始调查？

python-3.x pdf-scraping tabula-py

2021-12-10T21:07:04.853

0 投票

0 回答

21 浏览

python - Tabula-py 导出会聚并断开列-如何修复数据框

我正在尝试将 pdf 发票读入 csv。发票有 4 列。

发票如下所示：

描述	体积	单价
直接录入服务 DETCREDT JAN 直接录入信用交易	4,157	0.00 美元
DERECITM JAN 召回物品	3	0.00 美元
DETCREPR JAN 直接输入工资单交易	5,882	是的

运行以下代码后：

收到的输出奇怪地显示 tabula.convert_into("/content/invoice.pdf", "output.csv", stream=True, pages='all')

描述	体积	单价	费用
直接录入服务 DETCREDT JAN 直接录入信用交易 4,157	0.00 美元	0.00 美元
DERECITM JAN 召回第 3 项	0.00 美元	0.00 美元
DETCREPR JAN 直接输入工资单交易 5,882	0.00 美元	0.00 美元

如何将描述后面的数字分成单独的列？2.如何将描述中的代码 DERECITM ,DETCREPR,DETCREDT 放入一个名为代码的单独列中？
如何将表格转换为数据框并将其导出？因为我试过

df.to_csv(r'/content/invoice.csv', index=False, header=True) 但我得到 df 是一个列表的错误，这个导出什么也没产生。

我才华横溢的朋友们，我将非常感谢您帮助我解决这个问题。

python dataframe tabula-py

2021-12-14T06:34:42.640

0 投票

1 回答

73 浏览

python-3.x - tabula.errors.JavaNotFoundError 在谷歌云功能中使用 tabula 时出错

对于我的应用程序，我使用 tabula 包将 pdf 转换为 csv。我写的云函数是在python3.7中的。我把它写在 requirements.txt 文件中。但我收到了这个错误

需求文件

主文件

我该如何解决这个问题？有什么替代方案吗？

python-3.x google-cloud-functions tabula-py

2021-12-16T12:38:26.947

0 投票

1 回答

53 浏览

python - 合并单元格，在同一列，在同一个 df-Python

我正在尝试将两个单元格合并在一起。原因是“机箱”下的每个单元都应该是一个字母数字（ABCD123456），但是提供的 PO 偶尔会将最后一个数字移到下一行（所述行上没有其他数据）使得数据看起来像这样示例我最初尝试创建一个查看单元格的语句，确认它小于一个数字，然后查看下一个单元格，并将两者合并。从来没有达到甚至接近于表现出任何结果。然后我决定复制数据框，移动第二个数据框（因此丢失的数字在同一行），并将它们合并在一起。这就是我现在的位置。错误信息这是我在 Python 中的第一个真正的代码，所以我相当肯定我在做低效的事情，所以一定要让我知道我可以改进的地方。

目前我有这个...

Col1	机壳	其他栏目...	其他栏目 2...
楠	ABCD12345	美国广播公司	123
楠	6	楠	楠
楠	WXYZ987654	GHI	456
楠	QRSTU654987	楠	789
楠	MNOP999999	XYZ	楠

最终目标是这个...

Col1	机壳	其他栏目...	其他栏目 2...
楠	ABCD12345 6	美国广播公司	123
楠	WXYZ987654	GHI	456
楠	QRSTU654987	楠	789
楠	MNOP999999	XYZ	楠

python pandas merge pypdf2 tabula-py

2022-01-26T01:15:06.603

0 投票

0 回答

12 浏览

python - Tabula 转换为 csv - 连接问题

你好堆栈溢出朋友！

我在使用制表符转换 pdf 文件时遇到了一些麻烦。

这是代码：

我收到以下错误： ValueError：连接轴的所有输入数组维度必须完全匹配，但沿着维度 1，索引 0 处的数组大小为 2，索引 1 处的数组大小为 3

这就是pdf的样子

python pandas numpy tabula-py

2022-02-15T14:23:34.750

0 投票

1 回答

14 浏览

python-3.x - Pdfplumber - 以 pdf 格式提取表格，没有任何边框

我正在尝试将如图所示的表格提取到数据框中。我尝试使用 tabula-py 提取代码，但 read_pdf 返回了我 []。不确定 tabula-py 是否是正确的模块。任何人都可以帮忙吗？

python-3.x tabula-py pdfplumber

2022-02-23T14:03:34.180

0 投票

0 回答

8 浏览

python - 在 tabula-py 中读取 Gdrive 路径

我正在使用 tabula-py 从 PDF 中读取表格，但我不想将文件从 Gdrive 下载到我的工作目录，而是直接使用 Gdrive 文件路径。

但我收到以下错误：

命令'['java', '-Dfile.encoding=UTF8', '-jar', '/opt/conda/lib/python3.7/site-packages/tabula/tabula-1.0.5-jar-with-dependencies .jar'、'--pages'、'all'、'--guess'、'--format'、'JSON'、'/tmp/1a0aad07-88cc-4060-9df4-a52f780a97fb.pdf']' 返回非-零退出状态1。

有什么方法可以直接从 Gdrive 读取文件（在 python 中使用 Gdrive API 会给我 PDF 文件的文本内容，这无济于事）？

python tabula-py gdrive

2022-03-02T17:40:22.330

1 2 3 4 5 6 7 8 9 10

问题标签 [tabula-py]

Reference