是否有任何支持表格识别和提取的开源库?
我的意思是:
- 识别表结构存在
- 根据内容对表格进行分类
- 以有用的输出格式从表中提取数据,例如 JSON / CSV 等。
我查看了有关此主题的类似问题,发现以下内容:
- PDFMiner解决了问题 3,但似乎用户需要向 PDFMiner 指定每个表存在表结构的位置(如果我错了,请纠正我)
- pdf-table-extract试图解决问题 1 但根据待办事项列表,目前无法识别由空格分隔的表。这是一个问题,因为我的 PDF 中的所有表格都由空格分隔!
目前,我认为我必须花费大量时间开发机器学习解决方案来识别 PDF 中的表结构。因此,任何替代方法都将受到欢迎!