1

我有一个约 1200 个查询(部件号)的列表,这些查询在 100 页 PDF 中的某处指定。我需要做的几乎就是在 PDF 中记录每个查询出现在哪些页面上。我想不出一个聪明的方法来做到这一点。我应该花 5-20 个小时来做​​这个搜索,所以如果有人能在 5 个小时之前给我一个好主意,那就太好了!

4

1 回答 1

2

假设您可以通过纯文本以编程方式确定上下文中的“查询”是什么(例如,通过使用正则表达式):

您可以使用 pdftk 将您的 PDF 拆分为不同的文件(每页 1 个文件)

http://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/

然后使用像这样的 pdf-to-text 实用程序将这些文件转换为文本:

http://www.fileguru.com/PDF-To-TXT-Converter/download

或者这个

http://www.pdf2text.com/

最后,使用您最喜欢的编程语言为自己编写一个简单的脚本,以确定哪些文件包含“查询”(无论是什么样的)。

于 2011-10-06T14:50:47.373 回答