elasticsearch - 通过 FS Crawler (elasticsearch) 访问谷歌云存储桶

Question

我目前正在进行的项目需要一个搜索引擎来搜索几个 10.000 个 pdf 文件。当用户通过网站搜索某个关键字时，搜索引擎将返回一个符合其搜索条件的 pdf 文件片段。然后，用户可以选择单击按钮来查看整个 pdf 文件。

我认为最好的方法是使用 elasticsearch + fscrawler ( https://fscrawler.readthedocs.io/en/fscrawler-2.7/ )。今天运行了一些测试，并且能够爬到我本地机器上的一个文件夹。

为了提供 PDF 文件（通过网站），我想我可以将 PDF 文件存储在谷歌云存储中，然后使用谷歌云存储的链接让用户查看 pdf 文件。但是，FS Crawler 似乎无法访问存储桶。有关如何解决此问题的任何提示或想法。随意批评上述工作方法。如果有更好的方法让网站的用户访问 PDF 文件，我很想听听。

在此先感谢和亲切的问候！

score 1 · Accepted Answer

您可以使用s3fs-fuse将 s3 存储桶挂载到文件系统中，然后使用普通的本地 FS 爬虫。

或者，您可以分叉 fscrawler 并为 s3 实现类似于crawler-ftp的爬虫。

1 回答 1