问题标签 [fscrawler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
368 浏览

elasticsearch - 在索引时合并来自不同来源的数据

我有两个文件爬虫作业分别运行在使用 fscrawler( https://github.com/dadoonet/fscrawler )相互关联的数据上。现在我想在索引时以某种方式将数据合并在一起(子父关系或平面文档都可以),所以需要一些中间件。查看 ES 5.0 中的 Logstash 和新的 Ingest Node 功能,似乎没有一个支持编写自定义处理器。

是否有可能在索引时进行这种合并/关系映射?还是我必须进行后期处理?

编辑:一项工作以 json 格式抓取“文章”。文章可以有多个附件(在 json 中的附件数组中声明),位于不同的位置。第二个作业抓取实际附件(例如 pdf...),对其应用 TIKA 处理。最后我想要一种文章类型,其中还包含附件的内容。

0 投票
1 回答
844 浏览

c# - 在 C# 中使用 fscrawler 和 NEST 搜索文档的 ElasticSearch 文件映射

我使用 fscrawler 2.3-SNAPSHOT 对文件夹“/tmp/es”中的文档进行了索引。它将它们映射为:

现在,我想在我的 C# 应用程序中使用 NEST 搜索它们,我能够通过...获取内容hit.source.content但无法通过...获取文件hit.source.filename

代码 :

上面抛出 NULLException 但是当我用hit.Source.urland注释行时运行hit.Source.filename

Kibana 将文件名字段显示为file.filename,将 url 显示为file.url,将内容显示为content.

由于文件名嵌套在文件下,我无法检索它......请帮助卡在这里几天......

0 投票
1 回答
384 浏览

elasticsearch - fscrawler 2.3 与 elasticsearch 5.5 获取错误字符串索引超出范围

我有带 x-pack 的ElasticSearch 5.5,没有任何问题。

但是,当我尝试在文件夹上使用fscrawler 2.3时,我收到了这个错误

我究竟做错了什么?

0 投票
1 回答
203 浏览

elasticsearch - fscrawler 给出了三个 javascript 错误

我是 Elasticsearch 的新手,一直在尝试使用摄取插件(我已经发布了几个关于此的问题)。有人建议我应该使用 Fscrawler。我正在使用 Elasticsearch 5.5.1 并且我已经安装了 Fscrawler 2.3。我安装了 java 8.0.1,并创建了一个指向 Java 目录的环境变量“JAVA_HOME”。使用 Kibana 我创建了以下内容:

在我的 Fscrawler 的 _settings 文件中,我已将 url 设置为我的文档文件夹,并在我包含的 elaasticsearch 部分中"index" : "myindex"

使用 powershell 命令.\fscrawler mydocs --loop 1

下面是命令的输出。

在此处输入图像描述

这是我的 fscrawler _settings.json 文件

0 投票
1 回答
887 浏览

elasticsearch - 使用 FSCrawler 在 Elasticsearch 中创建索引

我让 FSCrawler 在 DEV 框中工作,其中文档与 FSCrawler 和 ElasticSearch 位于同一服务器上。在 _settings.json 文件中,我只是将 url 设置为我的文档位置,格式为“D:\MyDocs”

现在我将 elasticsearch 和 fscrawler 移动到新服务器上,并将文档放置到单独的服务器上。我现在应该如何格式化 _settings.json 文件中 url 的值?

所以我有(每个都是不同的服务器)1. WebServer,2. 文档服务器,3. 搜索服务器

elasticsearch 和 fscrawler 在服务器 3 上。

我可以将网络驱动器从服务器 2 映射到服务器 3,然后按上述方式进行映射,或者我可以在网络服务器上的 iis 中创建一个指向文档服务器的网站,然后使用http://mydocsite/ ..... ...,

我真的不想映射网络驱动器,也不想通过站点公开文档服务器。有没有更好的方法来做到这一点?

0 投票
1 回答
459 浏览

elasticsearch - 使用 Elasticsearch File System Crawler 将 pdf 文件索引到 AWS Elasticsearch 服务

我可以使用Elasticsearch File System Crawler将 pdf 文件索引到本地 Elasticsearch 。默认情况下,fscrawler 设置具有端口、主机和方案参数,如下所示。

但是,我很难使用它来索引 AWS elasticsearch 服务,因为要索引到 AWS elasticsearch,我必须提供 AWS_ACCESS_KEY、AWS_SECRET_KEY、区域和服务,如此所述。有关如何将 pdf 文件索引到 AWS elasticsearch 服务的任何帮助是高度赞赏。

0 投票
2 回答
524 浏览

elasticsearch - 更新 Elasticsearch 中现有索引的映射

我对弹性搜索完全陌生。所以如果这是一个愚蠢的问题,请原谅我,我的问题可能已经在其他地方得到了回答,但我找不到它。我想在我的网络中使用 Elastic Search 作为 PDF 和 docx 的搜索引擎。我使用 fscrawler 将 PDF 提取到弹性搜索中。由于我要摄取的文档是多种语言的,因此我想使用 n-graming 进行词干提取。为此,我想像这样更新我的映射

现在我得到了这个错误消息

{ "error": { "root_cause": [ { "type": "mapper_parsing_exception", "reason": "根映射定义有不受支持的参数:[mappings : {title={properties={title={type=text, fields ={de={type=string,analyzer=german},en={type=string,analyzer=english},general={type=string,analyzer=trigrams}}}}}}]" } ],"type" :“mapper_parsing_exception”,“原因”:“根映射定义有不受支持的参数:[映射:{title={properties={title={type=text,fields={de={type=string,analyzer=german},en ={type=string,analyzer=english},general={type=string,analyzer=trigrams}}}}}}]"
},"status": 400 }

你知道我该如何解决这个问题吗?或者您知道如何在不使用 fscrawler 的情况下使用正确的映射来摄取文件吗?

0 投票
1 回答
441 浏览

elasticsearch - fscrawler 容器不健康(退出代码 126)

从 Docker shadiakiki1986/fscrawler 启动 fscrawler 时,我收到以下两个错误:

错误:对于 fscrawler 容器“XXX”不健康。
错误:启动项目时遇到错误。

不健康容器检查如下:

docker ps # 列出容器
docker inspect --format='{{json .State.Health}}'

{“状态”:“不健康”,“FailingStreak”:3,“日志”:[{“开始”:“2018-11-24T14:29:57.31355179-06:00”,“结束”:“2018-11- 24T14:29:57.395705557-06:00","ExitCode":126,"Output":"/usr/local/bin/docker-healthcheck: /usr/local/bin/docker-healthcheck: 是一个目录\n" },{"开始":"2018-11-24T14:30:27.408426387-06:00","结束":"2018-11-24T14:30:27.48572124-06:00","ExitCode":126,"输出":"/usr/local/bin/docker-healthcheck: /usr/local/bin/docker-healthcheck: 是一个目录\n"},{"开始":"2018-11-24T14:30:57.497604654- 06:00","End":"2018-11-24T14:30:57.575523908-06:00","ExitCode":126,"Output":"/usr/local/bin/docker-healthcheck:/usr/local/bin/docker-healthcheck: 是一个目录\n"}]}

0 投票
1 回答
96 浏览

elasticsearch - fscrawler 中的触摸命令

我正在使用 FScrawler 来索引我的文档。每当我将新文档添加到文件夹时,我想知道如何使用触摸命令。还是会自动编入索引?

0 投票
1 回答
553 浏览

elasticsearch - 运行爬虫时收到致命错误

我想将二进制文件(PDF、WORD、TEXT)索引到 elasticsearch 中,为此我使用了 fscrawler,并且在运行 fscrawler 时出现以下错误。

我已关注此链接:https ://fscrawler.readthedocs.io/en/latest/user/getting_started.html

配置文件 - YAML

这个位置/home/gowtham/Documents有一个 pdf 文件

我收到以下错误

请帮我解决这个问题。

提前致谢。