我的本地文件系统中有大量 PDF 文件用作文档库,我想创建这些文件的索引。我想 :
- 解析 PDF 文件的内容以获取关键字。
- 选择最相关的关键字进行总结。
- 为某些关键字创建静态 HTML 页面,其中包含链接到相应文件的条目。
我的问题是:
- 是否有执行整个工作的现有工具?
- 解析 PDF 文件内容、过滤(按字数大小)和计算字数的最合适工具是什么?
- 我考虑使用
Perl
,swish-e
,pdfgrep
来制作脚本。你知道其他可能有用的工具吗?
鉴于第 2 点和第 3 点似乎是自定义的,我建议您使用自己的脚本,使用其中的工具解析 pdf,随意处理其输出,然后编写 HTML(可能使用其他工具)。
Perl 非常适合这一点,因为它擅长处理您需要的处理,并且还支持通过模块处理各种文件格式。
至于阅读pdf
,如果您的需求不太详细,这里有一些选项
pdftotext
从库中使用poppler
(可能在poppler-utils
包中)
使用pdftohtml
with选项,使用or-xml
读取生成的简单 XML 文件XML::libXML
XML::Twig
最后两个是您通过 Perl 的内置函数使用的外部工具,例如system
.
以下文本处理用于构建摘要和设计输出,这正是 Perl 等语言的用途。提到的几个任务需要几行代码。
然后写出 HTML,如果简单的话直接写出来,或者使用合适的模块。鉴于您的目的,您可能需要调查HTML::Template
. 参见this post
,例如。
完整解析 PDF 可能不可行,但如果文件不太复杂,它应该可以工作。
如果您选择关键字和建立统计数据的过程相当普遍,那么可以使用集成的文档管理工具(搜索书目管理器)。但是,我认为他们中的大多数都求助于外部工具来解析pdf
,因此您可能仍然使用自己的脚本会更好。