0

谁能给我快速回答/帮助,因为我们在使用 python camelot 将 pdf 提取到 json 后面临一些问题,但没有给出确切的内容。提取后缺少某些内容。

4

1 回答 1

0

我尝试了以下代码:

import camelot

pdf_path = '/YOUR/FILEPATH.pdf'
tables = camelot.read_pdf(pdf_path, flavor='stream')

在此处输入图像描述

这里有两个问题:

  • headers 字体未正确读取,因此您会发现奇怪的字符,例如(cid:71)...
  • 使用flavor='lattice',未检测到该表。使用flavor='stream',检测到表格,但未正确检测到单元格。

目前,我认为 Camelot 无法正确提取此表。他们正在努力解决第二个问题(参见thisthis)。

于 2020-09-24T13:40:21.220 回答