“fscrawler”的相关标签问题

0 投票

1 回答

74 浏览

php - 如何映射由 fscrawler 创建的索引，以便可以对文档进行精确的全文搜索？

我有一个由 fscrawler 创建的二进制文件的索引（具有默认映射）。

我正在使用 php-elasticsearch 查询我的索引：

我正在尝试对内容字段（正文）进行精确的全文搜索。我该怎么做？

2019-11-05T12:48:12.007

0 投票

1 回答

122 浏览

elasticsearch - 使用 elasticsearch 索引 7TB 的数据。FScrawler 在一段时间后停止

我正在使用 fscrawler 创建 7TB 以上的数据索引。索引开始正常，但当索引大小达到 2.6gb 时停止。我相信这是一个内存问题，我该如何配置内存？

我的机器内存是 40GB，我已经为 elasticsearch 分配了 12GB。

elasticsearch fscrawler

2019-12-09T18:04:13.467

0 投票

1 回答

162 浏览

java - elasticsearch 和 fscrawler 的 JVM 设置

我正在使用 elasticsearch 和 fscrawler 搜索大约 7TB 的数据。该过程开始良好，直到它在某个时间后停止。它一定是内存不足，我正在尝试使用https://fscrawler.readthedocs.io/en/latest/admin/jvm-settings.html添加我的堆，但我不断收到错误无效的最大堆大小。

这是设置堆的正确方法吗？我错过了什么？

java elasticsearch jvm fscrawler

2019-12-11T10:11:36.080

0 投票

1 回答

602 浏览

ruby - 将文档上传到 FSCrawler 以在 Elasticsearch 中建立索引的正确方法

我正在对 Rails 应用程序进行原型设计，以将文档上传到 FSCrawler（运行 REST 接口），以合并到 Elasticsearch 索引中。使用他们的例子，这有效：

文件被上传，内容被索引。这是我得到的一个例子：

当我curl在命令行运行时，我得到了一切，比如正确设置了“文件名”。如果我如上所述使用它，在 Rails 控制器中，如您所见，文件名设置为 Tempfile 的文件名。这不是一个可行的解决方案。尝试使用params[:document][:upload].tempfile(without .path) 或params[:document][:upload]两者都完全失败。

我正在尝试以“正确的方式”执行此操作，但是使用正确的 HTTP 客户端执行此操作的每一个化身都失败了。我不知道如何调用 HTTP POST，它将文件提交给 FSCrawler 的方式curl（在命令行上）。

在此示例中，我只是尝试使用Tempfile文件对象发送文件。出于某种原因，FSCrawler 给了我评论中的错误，并获得了一些元数据，但没有内容被索引：

如果我将上面的内容更改为 use params[:document][:upload].tempfile.path，那么我不会收到有关 InputStream 的错误，但我也（仍然）没有得到任何索引的内容。这是我得到的一个例子：

如果我尝试使用 RestClient，并尝试通过引用 Tempfile 的实际路径来发送文件，则会收到此错误消息，但什么也得不到：

如果我尝试访问.read()该文件并提交该文件，那么我会破坏 FSCrawler 表单：

显然，我一直在尽我所能尝试，但我无法复制curl任何已知的基于 Ruby 的 HTTP 客户端所做的任何事情。我完全不知道如何让 Ruby 以一种可以正确索引文档内容的方式向 FSCrawler 提交数据。我在这方面的时间比我愿意承认的要长得多。我在这里想念什么？

ruby curl rest-client net-http fscrawler

2020-01-30T15:50:23.007

0 投票

1 回答

442 浏览

elasticsearch - FSCrawler 找不到现有的工作

我对 Elastic Stack 很陌生，想使用 FSCrawler 来索引文档。我遇到了一个奇怪的问题：

我创建了一个新作业并确认它已成功创建。我可以看到带有作业名的新创建的文件夹。

问题是，FSCrawler 不知何故找不到新生成的工作。

我在 PS 中使用以下命令生成作业：

但是每当我想启动它时，似乎 FSCrawler 都找不到它。

即使该工作已明确创建：

elasticsearch elasticsearch-plugin elasticsearch-7 fscrawler

2020-02-11T09:30:31.567

0 投票

0 回答

295 浏览

elasticsearch - 如何在 elasticsearch 中摄取 .doc / .docx 文件？

我正在尝试在我的弹性搜索环境中索引 word 文档。我尝试使用 elasticsearch 摄取附件插件，但似乎只能摄取 base64 编码数据。

我的目标是用 word 文件索引整个目录。我尝试使用FSCrawler，但遗憾的是它目前在索引 word 文档时包含一个错误。如果有人可以向我解释一种索引包含 word 文档的目录的方法，我将非常感激。

elasticsearch elasticsearch-plugin data-ingestion elasticsearch-7 fscrawler

2020-02-14T08:40:35.090

0 投票

1 回答

182 浏览

elasticsearch - .eml 格式数据导入elasticsearch

现在我有.eml格式的邮件需要解析，然后导入elasticsearch，通过fscrawler，但是fscrawler不能扫描发件人和收件人信息，请问如何解决

elasticsearch fscrawler

2020-04-30T02:13:48.213

0 投票

1 回答

67 浏览

elasticsearch - 是否可以使用 FSCrawler 将文件内容提取到 Elasticsearch 中现有索引的特定 _id

我已经将数据提取到现有的 Elasticsearch 索引中，其中 _id 作为数据库中的列名“mainid”值之一。现在我有另一个表，其中有两列“mainid”和文件路径。我想使用 fSCrawler 将这些文件摄取到现有的 Elasticsearch 索引中，并且文件应该被摄取到相应的 _id 中。

elasticsearch indexing fscrawler

2020-05-05T08:14:13.503

0 投票

1 回答

151 浏览

elasticsearch - FSCrawler 爬取 E:\TestFilesToBeIndexed\subfolder 时出错：java.net.ConnectException：连接超时：连接

抓取路径\to\file_folder 时出错：java.net.ConnectException：连接超时：连接

我正在尝试使用 FSCrawler 将远程服务器文件摄取到 Elasticserach 的现有索引中（位于我的本地计算机上），但出现异常。

下面是 FSCrawler 的 _settings.yml 文件：

elasticsearch fscrawler

2020-05-22T06:47:25.613

0 投票

0 回答

134 浏览

elasticsearch - FScrawler：仅对没有文本的 PDF 文件有选择地执行 OCR

我正在使用 FScrawler (2.7) 将 PDF 中的文本加载到 Elasticsearch (7.6.X) 中。大多数 PDF 文件都有文本，但有些 PDF 文件包含扫描文本的图像，需要进行 OCRed。有没有办法配置 FScrawler，例如它只对包含扫描文本图像的 PDF 文件执行 OCR，而不是对已经有文本的文件执行 OCR？

到目前为止，我可以将其配置为不对任何文件进行 OCR（案例 1）或对所有文件进行 OCR（案例 2）。在第一种情况下，FScrawler 会跳过所有带有扫描文本图像的文件，但会非常快速地加载所有带有文本的文件。在第二种情况下，它需要很长时间，因为它对所有文件进行 OCR，包括那些已经有文本的文件。

这是 FScrawler 的 OCR 选项设置： https ://fscrawler.readthedocs.io/en/latest/user/ocr.html

案例1的配置：

案例 2 的配置：

PS 我可以使用其他方式将 PDF 分类为 OCRed 和非 OCRed 文件，并为每一堆 PDF 文件设置两个单独的 FScrawler 作业，但在此之前，我想检查是否有更简单的方法来使用 FScrawler 原生功能。

elasticsearch pdf ocr fscrawler

2020-06-05T20:44:47.803

问题标签 [fscrawler]

Reference