有谁知道如何在多页 pdf 中搜索某些文本(例如发票号),然后将该页面提取到单独的文件中?我了解如何使用FPDI提取特定页面,然后使用FPDF进行修改和保存。我不知道的部分是如何搜索 pdf 并确定文本所在的页码。这最好用 php 完成,但如有必要,我愿意使用其他东西。
有什么建议吗?
谢谢你。
此页面帮助我找到了解决方案:
http://www.freak-search.com/en/thread/2817957/find_page_number_containing_a_given_text
基本上,您在 bash 脚本(参见链接)中使用命令行程序“pdftotext”来返回页码,然后使用 FPDI 来提取页面。效果很好。