我必须从包含文本和表格的银行对帐单 PDF 中读取数据。
我尝试了一些通过堆栈溢出提供的解决方案,但大多数都出现错误。
从以下许多代码中,我得到了一个代码,但没有得到预期的结果。
from tika import parser
rawText = parser.from_file('icici.pdf')
rawList = rawText['content'].splitlines()
print(rawList)
将输出作为 -
2020-06-29 13:05:31,177 [MainThread ] [WARNI] Failed to see startup log message; retrying...
['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', 'Statement_MAY2020_013625568.pdf', '', '', '346001506028??PAVA0101 444501', '', '', '', '']
但是想要来自 PDF 文件的数据,而不是关于 PDF 文件的数据。
有人可以为我提供从银行对帐单 PDF 中读取数据的解决方案吗?