2

我有数千个可搜索的 PDF,其中一些高达 1GB,超过 2000 页。我需要能够使用 Node.js 应用程序在这些文件中搜索文本字符串。

目前,文件存储在 Google Cloud Storage 存储桶中。

最好的方法是什么?

一些选项:

  • 使用 NPM package 之类的东西将 PDF 文件中的文本读入 MySQL pdf-text-extract。然后使用 MySQL 查询来搜索文本字符串。
  • 使用一些 NPM 包直接搜索 PDF 文件。

我完全没有了?有没有更好的办法?

4

1 回答 1

0

那里有专门的文本搜索库,例如this onethis。您很可能需要从每个 pdf 中提取纯文本,保存并索引它们。然后,您将能够运行搜索查询。为这个特定任务设置数据库可能有点过头了。

于 2018-08-14T19:34:45.457 回答