我有数千个可搜索的 PDF,其中一些高达 1GB,超过 2000 页。我需要能够使用 Node.js 应用程序在这些文件中搜索文本字符串。
目前,文件存储在 Google Cloud Storage 存储桶中。
最好的方法是什么?
一些选项:
- 使用 NPM package 之类的东西将 PDF 文件中的文本读入 MySQL
pdf-text-extract
。然后使用 MySQL 查询来搜索文本字符串。 - 使用一些 NPM 包直接搜索 PDF 文件。
我完全没有了?有没有更好的办法?
我有数千个可搜索的 PDF,其中一些高达 1GB,超过 2000 页。我需要能够使用 Node.js 应用程序在这些文件中搜索文本字符串。
目前,文件存储在 Google Cloud Storage 存储桶中。
最好的方法是什么?
一些选项:
pdf-text-extract
。然后使用 MySQL 查询来搜索文本字符串。 我完全没有了?有没有更好的办法?