0

我目前正在进行的项目需要一个搜索引擎来搜索几个 10.000 个 pdf 文件。当用户通过网站搜索某个关键字时,搜索引擎将返回一个符合其搜索条件的 pdf 文件片段。然后,用户可以选择单击按钮来查看整个 pdf 文件。

我认为最好的方法是使用 elasticsearch + fscrawler ( https://fscrawler.readthedocs.io/en/fscrawler-2.7/ )。今天运行了一些测试,并且能够爬到我本地机器上的一个文件夹。

为了提供 PDF 文件(通过网站),我想我可以将 PDF 文件存储在谷歌云存储中,然后使用谷歌云存储的链接让用户查看 pdf 文件。但是,FS Crawler 似乎无法访问存储桶。有关如何解决此问题的任何提示或想法。随意批评上述工作方法。如果有更好的方法让网站的用户访问 PDF 文件,我很想听听。

在此先感谢和亲切的问候!

4

1 回答 1

1

您可以使用s3fs-fuse将 s3 存储桶挂载到文件系统中,然后使用普通的本地 FS 爬虫。

或者,您可以分叉 fscrawler 并为 s3 实现类似于crawler-ftp的爬虫。

于 2021-12-10T20:37:31.697 回答