mysql - 使用 Node.js 搜索 PDF 文本

Question

我有数千个可搜索的 PDF，其中一些高达 1GB，超过 2000 页。我需要能够使用 Node.js 应用程序在这些文件中搜索文本字符串。

目前，文件存储在 Google Cloud Storage 存储桶中。

最好的方法是什么？

一些选项：

使用 NPM package 之类的东西将 PDF 文件中的文本读入 MySQL pdf-text-extract。然后使用 MySQL 查询来搜索文本字符串。
使用一些 NPM 包直接搜索 PDF 文件。

我完全没有了？有没有更好的办法？

score 0 · Accepted Answer

那里有专门的文本搜索库，例如this one或this。您很可能需要从每个 pdf 中提取纯文本，保存并索引它们。然后，您将能够运行搜索查询。为这个特定任务设置数据库可能有点过头了。

1 回答 1