问题标签 [tabula-py]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 当java调用python脚本时tabula-py无法读取文件
我正在开发一个基于 java 的项目。并且java程序将运行命令来调用python脚本。
python脚本用于tabula-py读取pdf文件并返回数据。
当我在终端(pytho3 xxx.py)中直接调用它时,我尝试了 python 脚本的工作
但是,当我尝试从 java 调用 python 脚本时,它会抛出错误:
我试图以完整路径调用脚本,以完整路径提供pdf文件,尝试过sys.append(python script path)
,但它们都不起作用。
我试过在java命令中调用tabula,即java -Dfile.encoding=UTF8 -jar /home/ubuntu/.local/lib/python3.8/site-packages/tabula/tabula-1.0.5-jar-与-dependencies.jar “file_path”
它可以工作并且可以读取文件。然而回到java调用python脚本是行不通的
有什么方法可以解决这个问题吗?在我的情况下,在 java 程序中使用表格不是一个选项
python - 无法使用python检索CSV格式的数据帧
我想将 PDF 文件转换为 CSV。我正在使用 Tabula-py。但是,输出 CSV 包含列名而不是其内容。请指导告诉我我缺少什么以及如何将数据框保存到 CSV 文件中,以便在 CSV 文件中检索整个数据。
python-3.x - 使用 Python Tabula-py 从抓取的 PDF 表数据中获取奇怪的值
将此PDF保存到本地目录为“MIX_AESR_2562.pdf”。我想在 p646 和 p647 上刮桌子。这是脚本:
奇怪的结果
第 646 页的结果看起来不错,但 p647 的结果完全没有意义。我从哪里开始调查?
python - Tabula-py 导出会聚并断开列-如何修复数据框
我正在尝试将 pdf 发票读入 csv。发票有 4 列。
发票如下所示:
描述 | 体积 | 单价 | 费用 |
---|---|---|---|
直接录入服务 DETCREDT JAN 直接录入信用交易 | 4,157 | 0.00 美元 | 0.00 美元 |
DERECITM JAN 召回物品 | 3 | 0.00 美元 | 0.00 美元 |
DETCREPR JAN 直接输入工资单交易 | 5,882 | 是的 | 0.00 美元 |
运行以下代码后:
收到的输出奇怪地显示 tabula.convert_into("/content/invoice.pdf", "output.csv", stream=True, pages='all')
描述 | 体积 | 单价 | 费用 |
---|---|---|---|
直接录入服务 DETCREDT JAN 直接录入信用交易 4,157 | 0.00 美元 | 0.00 美元 | |
DERECITM JAN 召回第 3 项 | 0.00 美元 | 0.00 美元 | |
DETCREPR JAN 直接输入工资单交易 5,882 | 0.00 美元 | 0.00 美元 |
如何将描述后面的数字分成单独的列?2.如何将描述中的代码 DERECITM ,DETCREPR,DETCREDT 放入一个名为代码的单独列中?
如何将表格转换为数据框并将其导出?因为我试过
df.to_csv(r'/content/invoice.csv', index=False, header=True) 但我得到 df 是一个列表的错误,这个导出什么也没产生。
我才华横溢的朋友们,我将非常感谢您帮助我解决这个问题。
python-3.x - tabula.errors.JavaNotFoundError 在谷歌云功能中使用 tabula 时出错
对于我的应用程序,我使用 tabula 包将 pdf 转换为 csv。我写的云函数是在python3.7中的。我把它写在 requirements.txt 文件中。但我收到了这个错误
需求文件
主文件
我该如何解决这个问题?有什么替代方案吗?
python - 合并单元格,在同一列,在同一个 df-Python
我正在尝试将两个单元格合并在一起。原因是“机箱”下的每个单元都应该是一个字母数字(ABCD123456),但是提供的 PO 偶尔会将最后一个数字移到下一行(所述行上没有其他数据)使得数据看起来像这样示例我最初尝试创建一个查看单元格的语句,确认它小于一个数字,然后查看下一个单元格,并将两者合并。从来没有达到甚至接近于表现出任何结果。然后我决定复制数据框,移动第二个数据框(因此丢失的数字在同一行),并将它们合并在一起。这就是我现在的位置。错误信息这是我在 Python 中的第一个真正的代码,所以我相当肯定我在做低效的事情,所以一定要让我知道我可以改进的地方。
目前我有这个...
Col1 | 机壳 | 其他栏目... | 其他栏目 2... |
---|---|---|---|
楠 | ABCD12345 | 美国广播公司 | 123 |
楠 | 6 | 楠 | 楠 |
楠 | WXYZ987654 | GHI | 456 |
楠 | QRSTU654987 | 楠 | 789 |
楠 | MNOP999999 | XYZ | 楠 |
最终目标是这个...
Col1 | 机壳 | 其他栏目... | 其他栏目 2... |
---|---|---|---|
楠 | ABCD12345 6 | 美国广播公司 | 123 |
楠 | WXYZ987654 | GHI | 456 |
楠 | QRSTU654987 | 楠 | 789 |
楠 | MNOP999999 | XYZ | 楠 |
python - Tabula 转换为 csv - 连接问题
你好堆栈溢出朋友!
我在使用制表符转换 pdf 文件时遇到了一些麻烦。
这是代码:
我收到以下错误: ValueError:连接轴的所有输入数组维度必须完全匹配,但沿着维度 1,索引 0 处的数组大小为 2,索引 1 处的数组大小为 3
python - 在 tabula-py 中读取 Gdrive 路径
我正在使用 tabula-py 从 PDF 中读取表格,但我不想将文件从 Gdrive 下载到我的工作目录,而是直接使用 Gdrive 文件路径。
但我收到以下错误:
命令'['java', '-Dfile.encoding=UTF8', '-jar', '/opt/conda/lib/python3.7/site-packages/tabula/tabula-1.0.5-jar-with-dependencies .jar'、'--pages'、'all'、'--guess'、'--format'、'JSON'、'/tmp/1a0aad07-88cc-4060-9df4-a52f780a97fb.pdf']' 返回非-零退出状态1。
有什么方法可以直接从 Gdrive 读取文件(在 python 中使用 Gdrive API 会给我 PDF 文件的文本内容,这无济于事)?