问题标签 [fscrawler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
530 浏览

elasticsearch - 如何将 FSCrawler REST 与 docker-compose 连接起来

我已经使用 FSCrawler 成功地索引了一个 pdf,但我无法连接到 FSCrawler 的 REST 客户端来创建到 elasticsearch 的管道。这是我在 docker-compose 中的命令:

我可以使用我的 FSCrawler 作业名称的索引来查询 elasticsearch 并检索结果。然后,当我将--rest标志添加到我的 docker-compose 命令时,我成功启动了 REST 客户端(尽管有一个我不明白的警告):

然后,当我尝试curl使用或不使用斜杠时:curl -XGET "127.0.0.1:8080/fscrawler/"我得到curl: (7) Failed to connect to 127.0.0.1 port 8080: Connection refused

新的 docker-compose 命令供参考:

我似乎无法很好地调试它,因为 docker-compose 在容器运行时不允许 CLI 命令,但我不明白为什么我仍然可以使用http://localhost:9200/fscrawler_rest.

FSCrawler 正在使用 elasticsearch,但 REST 服务似乎无法正常工作。有没有人成功使用 FSCrawler REST API?

编辑:

0 投票
1 回答
35 浏览

fscrawler - 有没有办法检查 FSCrawler 将使用哪种 pdf 策略?

我正在使用 FSCrawler 的 REST 功能在上传 PDF 时对其进行扫描。我目前正在使用ocr_and_textpdf 策略,但是 ocr 用户等待响应的时间太长。我想将 pdf 同步发送到 fscrawler 以使用文本提取,如果这不起作用,请发送到 ocr 的异步后台任务。

有没有办法用 FSCrawler 做到这一点?或者有没有办法拥有多个 pdf 策略?

0 投票
1 回答
256 浏览

docker - Dockerized elasticsearch and fscrawler:未能创建elasticsearch客户端,禁用爬虫......连接被拒绝

尝试将 Dockerized fscrawler 连接到 Dockerized elasticsearch 时收到以下错误:

[fpecfcElasticsearchClientManager] 创建弹性搜索客户端失败,禁用爬虫...
[fpecfFsCrawler] 运行爬虫时收到致命错误:[连接被拒绝]

0 投票
1 回答
93 浏览

windows - Windows _settings.yml、文件夹/目录和驱动器上的 FSCrawler

Windows 服务器上的 FSCrawler 2.7

对于给定的作业,例如 test1,会自动创建一个 _settings.yaml 文件夹

例如c:\users\jbloggs\.fscrawler\test1\_settings.yml

您需要指定要爬取的文档所在的位置

fs:url:“驱动器和文档文件夹放在这里”

url c:\tmp 会报错

0 投票
0 回答
26 浏览

elasticsearch - Elasticsearch:根据通过 FsCrawler 制作的索引中的文件大小标准突出显示特定文档?

目前,我正在使用以下搜索查询来根据输入的查询突出显示内容。索引是通过 FsCrawler 创建的。

我能够得到想要的结果。但问题是 Elasticsearch 在对具有大内容字段的文件做出响应时所采取的延迟(这是可以理解的)。有什么方法可以仅在某些指定文件大小以下的文档中应用突出显示。

0 投票
0 回答
106 浏览

batch-file - 使用 fscrawler 将多个索引作为服务运行

我已经使用 fscrawler 成功创建了一个索引作业,并使其在 windows 中作为服务运行,如文档中所示:

但是,我有几份工作(比如 10 个)我想同时运行。我尝试如下添加启动命令,但它给了我错误:

如何将多个索引作业添加到批处理文件中,以便它们同时运行?

0 投票
1 回答
182 浏览

docker - 如何在 ubuntu 中使用 fscrawler?

是否可以在 ubuntu 中使用 fscrawler?我在windows上用过,效果很好。当我尝试在 ubuntu 上遵循相同的实现时,我遇到了各种错误。

首先,我只是尝试拉取 docker 映像并根据本指南https://fscrawler.readthedocs.io/en/latest/installation.html#installation运行它并使用docker pull dadoonet/fscrawler

当我尝试运行它时, docker run -it --rm -v /home/index:/root/.fscrawler -v /home/messages:/tmp/es:ro dadoonet/fscrawler fscrawler job_name出现此错误

之后,我尝试按照本教程fscrawler 教程来安装它并在 linux 中使用它。我下载了 fscrawler-es7-2.8-SNAPSHOT 版本,但是bin/fscrawler resumes在我解压缩文件的文件夹中运行只是给了我这个错误bin/fscrawler: command not found

有什么方法可以在 linux 系统中使用 fscrawler 吗?

0 投票
1 回答
63 浏览

elasticsearch - 通过 FS Crawler (elasticsearch) 访问谷歌云存储桶

我目前正在进行的项目需要一个搜索引擎来搜索几个 10.000 个 pdf 文件。当用户通过网站搜索某个关键字时,搜索引擎将返回一个符合其搜索条件的 pdf 文件片段。然后,用户可以选择单击按钮来查看整个 pdf 文件。

我认为最好的方法是使用 elasticsearch + fscrawler ( https://fscrawler.readthedocs.io/en/fscrawler-2.7/ )。今天运行了一些测试,并且能够爬到我本地机器上的一个文件夹。

为了提供 PDF 文件(通过网站),我想我可以将 PDF 文件存储在谷歌云存储中,然后使用谷歌云存储的链接让用户查看 pdf 文件。但是,FS Crawler 似乎无法访问存储桶。有关如何解决此问题的任何提示或想法。随意批评上述工作方法。如果有更好的方法让网站的用户访问 PDF 文件,我很想听听。

在此先感谢和亲切的问候!