问题标签 [fscrawler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
74 浏览

php - 如何映射由 fscrawler 创建的索引,以便可以对文档进行精确的全文搜索?

我有一个由 fscrawler 创建的二进制文件的索引(具有默认映射)。

我正在使用 php-elasticsearch 查询我的索引:

我正在尝试对内容字段(正文)进行精确的全文搜索。我该怎么做?

0 投票
1 回答
122 浏览

elasticsearch - 使用 elasticsearch 索引 7TB 的数据。FScrawler 在一段时间后停止

我正在使用 fscrawler 创建 7TB 以上的数据索引。索引开始正常,但当索引大小达到 2.6gb 时停止。我相信这是一个内存问题,我该如何配置内存?

我的机器内存是 40GB,我已经为 elasticsearch 分配了 12GB。

在此处输入图像描述

0 投票
1 回答
162 浏览

java - elasticsearch 和 fscrawler 的 JVM 设置

我正在使用 elasticsearch 和 fscrawler 搜索大约 7TB 的数据。该过程开始良好,直到它在某个时间后停止。它一定是内存不足,我正在尝试使用https://fscrawler.readthedocs.io/en/latest/admin/jvm-settings.html添加我的堆,但我不断收到错误无效的最大堆大小。

在此处输入图像描述

这是设置堆的正确方法吗?我错过了什么?

0 投票
1 回答
602 浏览

ruby - 将文档上传到 FSCrawler 以在 Elasticsearch 中建立索引的正确方法

我正在对 Rails 应用程序进行原型设计,以将文档上传到 FSCrawler(运行 REST 接口),以合并到 Elasticsearch 索引中。使用他们的例子,这有效:

文件被上传,内容被索引。这是我得到的一个例子:

当我curl在命令行运行时,我得到了一切,比如正确设置了“文件名”。如果我如上所述使用它,在 Rails 控制器中,如您所见,文件名设置为 Tempfile 的文件名。这不是一个可行的解决方案。尝试使用params[:document][:upload].tempfile(without .path) 或params[:document][:upload]两者都完全失败。

我正在尝试以“正确的方式”执行此操作,但是使用正确的 HTTP 客户端执行此操作的每一个化身都失败了。我不知道如何调用 HTTP POST,它将文件提交给 FSCrawler 的方式curl(在命令行上)。

在此示例中,我只是尝试使用Tempfile文件对象发送文件。出于某种原因,FSCrawler 给了我评论中的错误,并获得了一些元数据,但没有内容被索引:

如果我将上面的内容更改为 use params[:document][:upload].tempfile.path,那么我不会收到有关 InputStream 的错误,但我也(仍然)没有得到任何索引的内容。这是我得到的一个例子:

如果我尝试使用 RestClient,并尝试通过引用 Tempfile 的实际路径来发送文件,则会收到此错误消息,但什么也得不到:

如果我尝试访问.read()该文件并提交该文件,那么我会破坏 FSCrawler 表单:

显然,我一直在尽我所能尝试,但我无法复制curl任何已知的基于 Ruby 的 HTTP 客户端所做的任何事情。我完全不知道如何让 Ruby 以一种可以正确索引文档内容的方式向 FSCrawler 提交数据。我在这方面的时间比我愿意承认的要长得多。我在这里想念什么?

0 投票
1 回答
442 浏览

elasticsearch - FSCrawler 找不到现有的工作

我对 Elastic Stack 很陌生,想使用 FSCrawler 来索引文档。我遇到了一个奇怪的问题:

我创建了一个新作业并确认它已成功创建。我可以看到带有作业名的新创建的文件夹。

问题是,FSCrawler 不知何故找不到新生成的工作。

我在 PS 中使用以下命令生成作业:

但是每当我想启动它时,似乎 FSCrawler 都找不到它。

即使该工作已明确创建:

具有新生成作业的文件系统

0 投票
0 回答
295 浏览

elasticsearch - 如何在 elasticsearch 中摄取 .doc / .docx 文件?

我正在尝试在我的弹性搜索环境中索引 word 文档。我尝试使用 elasticsearch 摄取附件插件,但似乎只能摄取 base64 编码数据。

我的目标是用 word 文件索引整个目录。我尝试使用FSCrawler,但遗憾的是它目前在索引 word 文档时包含一个错误。如果有人可以向我解释一种索引包含 word 文档的目录的方法,我将非常感激。

0 投票
1 回答
182 浏览

elasticsearch - .eml 格式数据导入elasticsearch

现在我有.eml格式的邮件需要解析,然后导入elasticsearch,通过fscrawler,但是fscrawler不能扫描发件人和收件人信息,请问如何解决

0 投票
1 回答
67 浏览

elasticsearch - 是否可以使用 FSCrawler 将文件内容提取到 Elasticsearch 中现有索引的特定 _id

我已经将数据提取到现有的 Elasticsearch 索引中,其中 _id 作为数据库中的列名“mainid”值之一。现在我有另一个表,其中有两列“mainid”和文件路径。我想使用 fSCrawler 将这些文件摄取到现有的 Elasticsearch 索引中,并且文件应该被摄取到相应的 _id 中。

0 投票
1 回答
151 浏览

elasticsearch - FSCrawler 爬取 E:\TestFilesToBeIndexed\subfolder 时出错:java.net.ConnectException:连接超时:连接

抓取路径\to\file_folder 时出错:java.net.ConnectException:连接超时:连接

我正在尝试使用 FSCrawler 将远程服务器文件摄取到 Elasticserach 的现有索引中(位于我的本地计算机上),但出现异常。

下面是 FSCrawler 的 _settings.yml 文件:

0 投票
0 回答
134 浏览

elasticsearch - FScrawler:仅对没有文本的 PDF 文件有选择地执行 OCR

我正在使用 FScrawler (2.7) 将 PDF 中的文本加载到 Elasticsearch (7.6.X) 中。大多数 PDF 文件都有文本,但有些 PDF 文件包含扫描文本的图像,需要进行 OCRed。有没有办法配置 FScrawler,例如它只对包含扫描文本图像的 PDF 文件执行 OCR,而不是对已经有文本的文件执行 OCR?

到目前为止,我可以将其配置为不对任何文件进行 OCR(案例 1)或对所有文件进行 OCR(案例 2)。在第一种情况下,FScrawler 会跳过所有带有扫描文本图像的文件,但会非常快速地加载所有带有文本的文件。在第二种情况下,它需要很长时间,因为它对所有文件进行 OCR,包括那些已经有文本的文件。

这是 FScrawler 的 OCR 选项设置: https ://fscrawler.readthedocs.io/en/latest/user/ocr.html

案例1的配置:

案例 2 的配置:

PS 我可以使用其他方式将 PDF 分类为 OCRed 和非 OCRed 文件,并为每一堆 PDF 文件设置两个单独的 FScrawler 作业,但在此之前,我想检查是否有更简单的方法来使用 FScrawler 原生功能。