我正在尝试以结构化方式将表数据提取为使用 Java 的表。在过去的两年里,我一直在使用 pdfbox 和 tabula。但问题是 pdfbox 将 pdf 中的所有数据作为已排序或未排序的文本返回,并且 tabula 有时会检测到具有完美边框的表格并且无法识别没有边框的表格。
请帮助我解决使用Java以结构化格式从 pdf 中提取表格的解决方案,而不是使用pdfbox 和 tabula api。
我正在尝试以结构化方式将表数据提取为使用 Java 的表。在过去的两年里,我一直在使用 pdfbox 和 tabula。但问题是 pdfbox 将 pdf 中的所有数据作为已排序或未排序的文本返回,并且 tabula 有时会检测到具有完美边框的表格并且无法识别没有边框的表格。
请帮助我解决使用Java以结构化格式从 pdf 中提取表格的解决方案,而不是使用pdfbox 和 tabula api。