1

我想将pdf文件转换为excel并通过python将其保存在本地。我已将 pdf 转换为 excel 格式,但我应该如何将其保存在本地?

我的代码:

df = ("./Downloads/folder/myfile.pdf")
tabula.convert_into(df, "test.csv", output_format="csv", stream=True)
4

5 回答 5

7

您可以指定整个输出路径,而不仅仅是output.csv

df = ("./Downloads/folder/myfile.pdf")
output = "./Downloads/folder/test.csv"
tabula.convert_into(df, output, output_format="csv", stream=True)

希望这能回答你的问题!!!

于 2019-11-04T09:41:23.007 回答
2

就我而言,下面的脚本有效:

import tabula

df = tabula.read_pdf(r'C:\Users\user\Downloads\folder\3.pdf', pages='all')
tabula.convert_into(r'C:\Users\user\Downloads\folder\3.pdf', r'C:\Users\user\Downloads\folder\test.csv' , output_format="csv",pages='all', stream=True)
于 2020-08-08T12:48:12.403 回答
0

文档说:

输出文件将保存到 output_path

output_path是您的第二个参数“test.csv”。我想它工作正常,但你把它放在错误的文件夹中。它将位于您的脚本附近(严格来说 - 在当前工作目录中),因为您没有指定完整路径。

于 2019-11-04T09:43:25.607 回答
0

PDF 到 .xlsx 文件:

for item in df:
   list1.append(item)
df = pd.DataFrame(list1)
df.to_excel('outputfile.xlsx', sheet_name='Sheet1', index=True)
于 2021-04-08T10:03:15.340 回答
-1

对我有用的代码如下,但它并没有阅读所有的 pdf 页面,只是中间的一些。我做错了什么?

import tabula

df = tabula.read_pdf(r'C:\Users\user\Downloads\folder\3.pdf', pages='all')
tabula.convert_into(r'C:\Users\user\Downloads\folder\3.pdf', r'C:\Users\user\Downloads\folder\test.csv' , output_format="csv",pages='all', stream=True)
于 2021-01-29T01:23:35.477 回答