问题标签 [fscrawler]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

28 问题

0 投票

1 回答

530 浏览

elasticsearch - 如何将 FSCrawler REST 与 docker-compose 连接起来

我已经使用 FSCrawler 成功地索引了一个 pdf，但我无法连接到 FSCrawler 的 REST 客户端来创建到 elasticsearch 的管道。这是我在 docker-compose 中的命令：

我可以使用我的 FSCrawler 作业名称的索引来查询 elasticsearch 并检索结果。然后，当我将--rest标志添加到我的 docker-compose 命令时，我成功启动了 REST 客户端（尽管有一个我不明白的警告）：

然后，当我尝试curl使用或不使用斜杠时：curl -XGET "127.0.0.1:8080/fscrawler/"我得到curl: (7) Failed to connect to 127.0.0.1 port 8080: Connection refused

新的 docker-compose 命令供参考：

我似乎无法很好地调试它，因为 docker-compose 在容器运行时不允许 CLI 命令，但我不明白为什么我仍然可以使用http://localhost:9200/fscrawler_rest.

FSCrawler 正在使用 elasticsearch，但 REST 服务似乎无法正常工作。有没有人成功使用 FSCrawler REST API？

编辑：

2020-07-20T08:18:21.693

0 投票

1 回答

35 浏览

fscrawler - 有没有办法检查 FSCrawler 将使用哪种 pdf 策略？

我正在使用 FSCrawler 的 REST 功能在上传 PDF 时对其进行扫描。我目前正在使用ocr_and_textpdf 策略，但是 ocr 用户等待响应的时间太长。我想将 pdf 同步发送到 fscrawler 以使用文本提取，如果这不起作用，请发送到 ocr 的异步后台任务。

有没有办法用 FSCrawler 做到这一点？或者有没有办法拥有多个 pdf 策略？

fscrawler

2020-08-03T01:00:34.023

0 投票

1 回答

256 浏览

docker - Dockerized elasticsearch and fscrawler：未能创建elasticsearch客户端，禁用爬虫......连接被拒绝

尝试将 Dockerized fscrawler 连接到 Dockerized elasticsearch 时收到以下错误：

[fpecfcElasticsearchClientManager] 创建弹性搜索客户端失败，禁用爬虫...
[fpecfFsCrawler] 运行爬虫时收到致命错误：[连接被拒绝]

docker elasticsearch docker-compose fscrawler

2020-08-10T22:52:31.590

0 投票

1 回答

93 浏览

windows - Windows _settings.yml、文件夹/目录和驱动器上的 FSCrawler

Windows 服务器上的 FSCrawler 2.7

对于给定的作业，例如 test1，会自动创建一个 _settings.yaml 文件夹

例如c:\users\jbloggs\.fscrawler\test1\_settings.yml

您需要指定要爬取的文档所在的位置

fs：url：“驱动器和文档文件夹放在这里”

url c:\tmp 会报错

windows fscrawler

2021-01-29T07:13:52.357

0 投票

0 回答

26 浏览

elasticsearch - Elasticsearch：根据通过 FsCrawler 制作的索引中的文件大小标准突出显示特定文档？

目前，我正在使用以下搜索查询来根据输入的查询突出显示内容。索引是通过 FsCrawler 创建的。

我能够得到想要的结果。但问题是 Elasticsearch 在对具有大内容字段的文件做出响应时所采取的延迟（这是可以理解的）。有什么方法可以仅在某些指定文件大小以下的文档中应用突出显示。

elasticsearch fscrawler

2021-03-07T17:23:53.127

0 投票

0 回答

106 浏览

batch-file - 使用 fscrawler 将多个索引作为服务运行

我已经使用 fscrawler 成功创建了一个索引作业，并使其在 windows 中作为服务运行，如文档中所示：

但是，我有几份工作（比如 10 个）我想同时运行。我尝试如下添加启动命令，但它给了我错误：

如何将多个索引作业添加到批处理文件中，以便它们同时运行？

batch-file elasticsearch fscrawler

2021-04-28T10:33:20.883

0 投票

1 回答

182 浏览

docker - 如何在 ubuntu 中使用 fscrawler？

是否可以在 ubuntu 中使用 fscrawler？我在windows上用过，效果很好。当我尝试在 ubuntu 上遵循相同的实现时，我遇到了各种错误。

首先，我只是尝试拉取 docker 映像并根据本指南https://fscrawler.readthedocs.io/en/latest/installation.html#installation运行它并使用docker pull dadoonet/fscrawler

当我尝试运行它时， docker run -it --rm -v /home/index:/root/.fscrawler -v /home/messages:/tmp/es:ro dadoonet/fscrawler fscrawler job_name出现此错误

之后，我尝试按照本教程fscrawler 教程来安装它并在 linux 中使用它。我下载了 fscrawler-es7-2.8-SNAPSHOT 版本，但是bin/fscrawler resumes在我解压缩文件的文件夹中运行只是给了我这个错误bin/fscrawler: command not found

有什么方法可以在 linux 系统中使用 fscrawler 吗？

docker ubuntu elasticsearch fscrawler

2021-09-19T02:44:54.617

0 投票

1 回答

63 浏览

elasticsearch - 通过 FS Crawler (elasticsearch) 访问谷歌云存储桶

我目前正在进行的项目需要一个搜索引擎来搜索几个 10.000 个 pdf 文件。当用户通过网站搜索某个关键字时，搜索引擎将返回一个符合其搜索条件的 pdf 文件片段。然后，用户可以选择单击按钮来查看整个 pdf 文件。

我认为最好的方法是使用 elasticsearch + fscrawler ( https://fscrawler.readthedocs.io/en/fscrawler-2.7/ )。今天运行了一些测试，并且能够爬到我本地机器上的一个文件夹。

为了提供 PDF 文件（通过网站），我想我可以将 PDF 文件存储在谷歌云存储中，然后使用谷歌云存储的链接让用户查看 pdf 文件。但是，FS Crawler 似乎无法访问存储桶。有关如何解决此问题的任何提示或想法。随意批评上述工作方法。如果有更好的方法让网站的用户访问 PDF 文件，我很想听听。

在此先感谢和亲切的问候！

elasticsearch pdf google-cloud-platform fscrawler

2021-12-10T16:01:52.097

1 2 3 4 5 6 7 8 9 10

问题标签 [fscrawler]

Reference