我创建了一个pdf 提取工具。附上示例屏幕。用户可以加载一个pdf文件并选择他想要的数据区域。然后我抓取 pdf 坐标和页码,然后将其保存为模板。一旦用户给出一个 pdf 文件列表,工具就能够根据模板文件提取数据。我的工具与此非常相似。
现在的问题是有时在某些 pdf 中,需要提取的数据部分被转移到下一页。(转移的原因是;我举个例子。如果您认为您购买的物品清单的清单,打印“总价值”的位置取决于您购买的物品数量:如果它是一个长列表总计去底部,中间或接近顶部)。
因此,现在我正在考虑识别 pdf 的结构而不是获取坐标。
但我没有一个明确的想法来做到这一点。请分享任何您认为有助于解决此问题的内容。我再次重申,我正在尝试从 pdf 中获取数据。因此可以捕获 pdf文件的结构。
我的想法是,如果我可以识别结构,那么我可以说出价值在哪里。例如,我尝试将 pdf 转换为 html 并尝试浏览 html 标记值。(body->div->table->td-> etc.)但这并不成功.. :(