0

我正在使用 tabula.convert_into csv,它可以很好地抓取所有内容,但文本如下:

“DEV__HH WorldSummit 重新估计”

在 PDF 中变成(DEV 和 HH 之间有 2 个空格)

csv 中的“DEVHH WorldSummit Re Estimates”

我已经尝试了 encoding='utf-8' 和其他库,例如 pypdf2,但 tabula 给了我迄今为止最好的结果。这只是我需要解决的一件奇怪的事情。

import tabula

file = 'input.pdf'

tabula.convert_into(file,"output.csv",pages = 'all', output_format="csv", encoding='utf-8')
4

0 回答 0