我有(相同的)数据保存为 GIF 图像文件和 PDF 文件,我想将其解析为 HTML 或 XML。数据实际上是我大学食堂的菜单。这意味着每周都会解析一个新版本的文件!通常,这些文件包含一些页眉和页脚文本,以及一个充满其他数据的表格。我已经阅读了一些关于 stackoverflow 的帖子,并且我也开始尝试将表格数据解析为 HTML/XML:
PDF格式
- PDFBox || iText (Java)
- 谷歌文档导入
- PDF2HTML || PDF2表格
动图
- 正方体-OCR
我从使用 PDFBox 解析 PDF 文件中得到了最好的结果,但仍然(随着菜单每周更改),它还不够可靠。我收到的 HTML 有时包含更多,有时更少的“段落”(<p>
),因此我无法足够精确地解析数据。
这就是为什么我想知道是否有其他方法可以做到这一点?