我必须从发票和账单 pdf 文件中提取文本
文件布局可能会变得复杂,尽管它大部分都充满了表格。
我已经阅读了几十篇关于 pdf 格式的文章,我们的大脑掌握它是多么容易,而机器理解它的结构是多么困难。
还下载了一些工具,比如 python 的 pdfminer 和一些 java 工具,有些甚至有基于规则的布局提取,比如LA-PDBtext这些都是很棒的库,留给你最后一步。
Adobe 也有一个名为 exportPdf 的在线服务,但它不能自定义
底线,我知道为了从结构化 pdf 文件中提取文本并将其转换为 XML,例如,应该有一定程度的手动工作。
我还发现了From Data Extractor,这是一个非免费工具,能够设置声称可以完成这项工作的提取规则,尽管很难找到合适的手册并且它只能在 Windows 上运行。
我想我什至可以尝试将这些文件转换为图像并尝试tesseract-ocr但决定在我花更多时间之前在这里寻求建议。
如果有这样经验的人给我提示,我将不胜感激。