-2

大家好,我想制作一个可以搜索“许多”pdf文件的搜索引擎。我想搜索 pdf 文件中的内容,而不仅仅是标题。此应用程序用于归档我的文件,因此我可以轻松搜索匹配的单词。例如在 google 中,您可以使用“filetype:.pdf home”,结果将显示所有包含 home 字样的 pdf 文件。那么你能帮我处理这个基于网络的应用程序吗?

4

1 回答 1

0

如果您的应用程序在 linux 上运行并且您可以运行系统命令,您可以尝试使用“pdftotext”命令将 pdf 文件转换为纯文本,然后对其进行索引。

请记住,文本将按显示顺序排列,而不是语义正确的顺序(两栏文章会给出非常奇怪的结果),因此显示文本将毫无意义,搜索句子可能无法正常工作。

于 2013-02-27T14:15:21.253 回答