我有一个约 1200 个查询(部件号)的列表,这些查询在 100 页 PDF 中的某处指定。我需要做的几乎就是在 PDF 中记录每个查询出现在哪些页面上。我想不出一个聪明的方法来做到这一点。我应该花 5-20 个小时来做这个搜索,所以如果有人能在 5 个小时之前给我一个好主意,那就太好了!
问问题
66 次
1 回答
2
假设您可以通过纯文本以编程方式确定上下文中的“查询”是什么(例如,通过使用正则表达式):
您可以使用 pdftk 将您的 PDF 拆分为不同的文件(每页 1 个文件)
http://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/
然后使用像这样的 pdf-to-text 实用程序将这些文件转换为文本:
http://www.fileguru.com/PDF-To-TXT-Converter/download
或者这个
最后,使用您最喜欢的编程语言为自己编写一个简单的脚本,以确定哪些文件包含“查询”(无论是什么样的)。
于 2011-10-06T14:50:47.373 回答