Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有 PDFcreator 创建的 PDF。每个多页 PDF 的第一页都有需要识别的邮寄地址。有没有办法在 PDF 的特定区域内进行文本搜索?
我找到了CAM::PDF和pdftotext,但没有看到将搜索限制在特定区域的方法。我主要关心的是准确性,因为不同的地址可能会出现在同一个 PDF 中。搜索整个 PDF 也可能太慢了。
Pdftotext 确实可以完成你想做的事情。我相当确定 CAM::PDF 也可以,但我过去没有使用该工具返回坐标信息。
我会在整个页面上运行 pdftotext,保存 xml 输出,然后梳理结果。它应该为页面上的每个单词提供 xMin/xMax/yMin/yMax 值。然后,您可以使用这些坐标来构建仅包含在您预定范围内的那些单词的列表。
然而,顺利识别多行地址可能会带来其自身的挑战,尤其是在您定义的区域内可能存在任何非地址文本时。