“fscrawler”的相关标签问题

0 投票

1 回答

368 浏览

elasticsearch - 在索引时合并来自不同来源的数据

我有两个文件爬虫作业分别运行在使用 fscrawler（ https://github.com/dadoonet/fscrawler ）相互关联的数据上。现在我想在索引时以某种方式将数据合并在一起（子父关系或平面文档都可以），所以需要一些中间件。查看 ES 5.0 中的 Logstash 和新的 Ingest Node 功能，似乎没有一个支持编写自定义处理器。

是否有可能在索引时进行这种合并/关系映射？还是我必须进行后期处理？

编辑：一项工作以 json 格式抓取“文章”。文章可以有多个附件（在 json 中的附件数组中声明），位于不同的位置。第二个作业抓取实际附件（例如 pdf...），对其应用 TIKA 处理。最后我想要一种文章类型，其中还包含附件的内容。

2016-10-14T12:42:18.327

0 投票

1 回答

844 浏览

c# - 在 C# 中使用 fscrawler 和 NEST 搜索文档的 ElasticSearch 文件映射

我使用 fscrawler 2.3-SNAPSHOT 对文件夹“/tmp/es”中的文档进行了索引。它将它们映射为：

现在，我想在我的 C# 应用程序中使用 NEST 搜索它们，我能够通过...获取内容hit.source.content但无法通过...获取文件hit.source.filename名

代码：

上面抛出 NULLException 但是当我用hit.Source.urland注释行时运行hit.Source.filename。

Kibana 将文件名字段显示为file.filename，将 url 显示为file.url，将内容显示为content.

由于文件名嵌套在文件下，我无法检索它......请帮助卡在这里几天......

c#wpf elasticsearch nest fscrawler

2017-04-18T17:26:53.733

0 投票

1 回答

384 浏览

elasticsearch - fscrawler 2.3 与 elasticsearch 5.5 获取错误字符串索引超出范围

我有带 x-pack 的ElasticSearch 5.5，没有任何问题。

但是，当我尝试在文件夹上使用fscrawler 2.3时，我收到了这个错误

我究竟做错了什么？

elasticsearch fscrawler

2017-07-19T16:55:03.023

0 投票

1 回答

203 浏览

elasticsearch - fscrawler 给出了三个 javascript 错误

我是 Elasticsearch 的新手，一直在尝试使用摄取插件（我已经发布了几个关于此的问题）。有人建议我应该使用 Fscrawler。我正在使用 Elasticsearch 5.5.1 并且我已经安装了 Fscrawler 2.3。我安装了 java 8.0.1，并创建了一个指向 Java 目录的环境变量“JAVA_HOME”。使用 Kibana 我创建了以下内容：

在我的 Fscrawler 的 _settings 文件中，我已将 url 设置为我的文档文件夹，并在我包含的 elaasticsearch 部分中"index" : "myindex"

使用 powershell 命令.\fscrawler mydocs --loop 1

下面是命令的输出。

这是我的 fscrawler _settings.json 文件

elasticsearch kibana fscrawler

2017-08-03T13:30:09.580

0 投票

1 回答

887 浏览

elasticsearch - 使用 FSCrawler 在 Elasticsearch 中创建索引

我让 FSCrawler 在 DEV 框中工作，其中文档与 FSCrawler 和 ElasticSearch 位于同一服务器上。在 _settings.json 文件中，我只是将 url 设置为我的文档位置，格式为“D:\MyDocs”

现在我将 elasticsearch 和 fscrawler 移动到新服务器上，并将文档放置到单独的服务器上。我现在应该如何格式化 _settings.json 文件中 url 的值？

所以我有（每个都是不同的服务器）1. WebServer，2. 文档服务器，3. 搜索服务器

elasticsearch 和 fscrawler 在服务器 3 上。

我可以将网络驱动器从服务器 2 映射到服务器 3，然后按上述方式进行映射，或者我可以在网络服务器上的 iis 中创建一个指向文档服务器的网站，然后使用http://mydocsite/ ..... ...,

我真的不想映射网络驱动器，也不想通过站点公开文档服务器。有没有更好的方法来做到这一点？

elasticsearch fscrawler

2017-10-26T12:59:54.880

0 投票

1 回答

459 浏览

elasticsearch - 使用 Elasticsearch File System Crawler 将 pdf 文件索引到 AWS Elasticsearch 服务

我可以使用Elasticsearch File System Crawler将 pdf 文件索引到本地 Elasticsearch 。默认情况下，fscrawler 设置具有端口、主机和方案参数，如下所示。

但是，我很难使用它来索引 AWS elasticsearch 服务，因为要索引到 AWS elasticsearch，我必须提供 AWS_ACCESS_KEY、AWS_SECRET_KEY、区域和服务，如此处所述。有关如何将 pdf 文件索引到 AWS elasticsearch 服务的任何帮助是高度赞赏。

elasticsearch aws-elasticsearch fscrawler

2018-05-21T14:26:14.493

0 投票

2 回答

524 浏览

elasticsearch - 更新 Elasticsearch 中现有索引的映射

我对弹性搜索完全陌生。所以如果这是一个愚蠢的问题，请原谅我，我的问题可能已经在其他地方得到了回答，但我找不到它。我想在我的网络中使用 Elastic Search 作为 PDF 和 docx 的搜索引擎。我使用 fscrawler 将 PDF 提取到弹性搜索中。由于我要摄取的文档是多种语言的，因此我想使用 n-graming 进行词干提取。为此，我想像这样更新我的映射

现在我得到了这个错误消息

{ "error": { "root_cause": [ { "type": "mapper_parsing_exception", "reason": "根映射定义有不受支持的参数：[mappings : {title={properties={title={type=text, fields ={de={type=string，analyzer=german}，en={type=string，analyzer=english}，general={type=string，analyzer=trigrams}}}}}}]" } ]，"type" ：“mapper_parsing_exception”，“原因”：“根映射定义有不受支持的参数：[映射：{title={properties={title={type=text,fields={de={type=string,analyzer=german},en ={type=string，analyzer=english}，general={type=string，analyzer=trigrams}}}}}}]"
}，"status": 400 }

你知道我该如何解决这个问题吗？或者您知道如何在不使用 fscrawler 的情况下使用正确的映射来摄取文件吗？

elasticsearch fscrawler

2018-11-13T13:31:22.000

0 投票

1 回答

441 浏览

elasticsearch - fscrawler 容器不健康（退出代码 126）

从 Docker shadiakiki1986/fscrawler 启动 fscrawler 时，我收到以下两个错误：

错误：对于 fscrawler 容器“XXX”不健康。
错误：启动项目时遇到错误。

不健康容器检查如下：

docker ps # 列出容器
docker inspect --format='{{json .State.Health}}'

{“状态”：“不健康”，“FailingStreak”：3，“日志”：[{“开始”：“2018-11-24T14：29：57.31355179-06：00”，“结束”：“2018-11- 24T14:29:57.395705557-06:00","ExitCode":126,"Output":"/usr/local/bin/docker-healthcheck: /usr/local/bin/docker-healthcheck: 是一个目录\n" },{"开始":"2018-11-24T14:30:27.408426387-06:00","结束":"2018-11-24T14:30:27.48572124-06:00","ExitCode":126,"输出":"/usr/local/bin/docker-healthcheck: /usr/local/bin/docker-healthcheck: 是一个目录\n"},{"开始":"2018-11-24T14:30:57.497604654- 06:00","End":"2018-11-24T14:30:57.575523908-06:00","ExitCode":126,"Output":"/usr/local/bin/docker-healthcheck:/usr/local/bin/docker-healthcheck: 是一个目录\n"}]}

elasticsearch fscrawler

2018-11-25T05:21:23.407

0 投票

1 回答

96 浏览

elasticsearch - fscrawler 中的触摸命令

我正在使用 FScrawler 来索引我的文档。每当我将新文档添加到文件夹时，我想知道如何使用触摸命令。还是会自动编入索引？

elasticsearch touch fscrawler

2019-02-13T04:49:22.783

0 投票

1 回答

553 浏览

elasticsearch - 运行爬虫时收到致命错误

我想将二进制文件（PDF、WORD、TEXT）索引到 elasticsearch 中，为此我使用了 fscrawler，并且在运行 fscrawler 时出现以下错误。

我已关注此链接：https ://fscrawler.readthedocs.io/en/latest/user/getting_started.html

配置文件 - YAML

这个位置/home/gowtham/Documents有一个 pdf 文件

我收到以下错误

请帮我解决这个问题。

提前致谢。

elasticsearch configuration-files elasticsearch-plugin fscrawler

2019-04-16T07:30:14.470

问题标签 [fscrawler]

Reference