问题标签 [fscrawler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
elasticsearch - 在索引时合并来自不同来源的数据
我有两个文件爬虫作业分别运行在使用 fscrawler( https://github.com/dadoonet/fscrawler )相互关联的数据上。现在我想在索引时以某种方式将数据合并在一起(子父关系或平面文档都可以),所以需要一些中间件。查看 ES 5.0 中的 Logstash 和新的 Ingest Node 功能,似乎没有一个支持编写自定义处理器。
是否有可能在索引时进行这种合并/关系映射?还是我必须进行后期处理?
编辑:一项工作以 json 格式抓取“文章”。文章可以有多个附件(在 json 中的附件数组中声明),位于不同的位置。第二个作业抓取实际附件(例如 pdf...),对其应用 TIKA 处理。最后我想要一种文章类型,其中还包含附件的内容。
c# - 在 C# 中使用 fscrawler 和 NEST 搜索文档的 ElasticSearch 文件映射
我使用 fscrawler 2.3-SNAPSHOT 对文件夹“/tmp/es”中的文档进行了索引。它将它们映射为:
现在,我想在我的 C# 应用程序中使用 NEST 搜索它们,我能够通过...获取内容hit.source.content
但无法通过...获取文件hit.source.filename
名
代码 :
上面抛出 NULLException 但是当我用hit.Source.url
and注释行时运行hit.Source.filename
。
Kibana 将文件名字段显示为file.filename
,将 url 显示为file.url
,将内容显示为content
.
由于文件名嵌套在文件下,我无法检索它......请帮助卡在这里几天......
elasticsearch - fscrawler 2.3 与 elasticsearch 5.5 获取错误字符串索引超出范围
我有带 x-pack 的ElasticSearch 5.5,没有任何问题。
但是,当我尝试在文件夹上使用fscrawler 2.3时,我收到了这个错误
我究竟做错了什么?
elasticsearch - fscrawler 给出了三个 javascript 错误
我是 Elasticsearch 的新手,一直在尝试使用摄取插件(我已经发布了几个关于此的问题)。有人建议我应该使用 Fscrawler。我正在使用 Elasticsearch 5.5.1 并且我已经安装了 Fscrawler 2.3。我安装了 java 8.0.1,并创建了一个指向 Java 目录的环境变量“JAVA_HOME”。使用 Kibana 我创建了以下内容:
在我的 Fscrawler 的 _settings 文件中,我已将 url 设置为我的文档文件夹,并在我包含的 elaasticsearch 部分中"index" : "myindex"
使用 powershell 命令.\fscrawler mydocs --loop 1
下面是命令的输出。
这是我的 fscrawler _settings.json 文件
elasticsearch - 使用 FSCrawler 在 Elasticsearch 中创建索引
我让 FSCrawler 在 DEV 框中工作,其中文档与 FSCrawler 和 ElasticSearch 位于同一服务器上。在 _settings.json 文件中,我只是将 url 设置为我的文档位置,格式为“D:\MyDocs”
现在我将 elasticsearch 和 fscrawler 移动到新服务器上,并将文档放置到单独的服务器上。我现在应该如何格式化 _settings.json 文件中 url 的值?
所以我有(每个都是不同的服务器)1. WebServer,2. 文档服务器,3. 搜索服务器
elasticsearch 和 fscrawler 在服务器 3 上。
我可以将网络驱动器从服务器 2 映射到服务器 3,然后按上述方式进行映射,或者我可以在网络服务器上的 iis 中创建一个指向文档服务器的网站,然后使用http://mydocsite/ ..... ...,
我真的不想映射网络驱动器,也不想通过站点公开文档服务器。有没有更好的方法来做到这一点?
elasticsearch - 使用 Elasticsearch File System Crawler 将 pdf 文件索引到 AWS Elasticsearch 服务
我可以使用Elasticsearch File System Crawler将 pdf 文件索引到本地 Elasticsearch 。默认情况下,fscrawler 设置具有端口、主机和方案参数,如下所示。
但是,我很难使用它来索引 AWS elasticsearch 服务,因为要索引到 AWS elasticsearch,我必须提供 AWS_ACCESS_KEY、AWS_SECRET_KEY、区域和服务,如此处所述。有关如何将 pdf 文件索引到 AWS elasticsearch 服务的任何帮助是高度赞赏。
elasticsearch - 更新 Elasticsearch 中现有索引的映射
我对弹性搜索完全陌生。所以如果这是一个愚蠢的问题,请原谅我,我的问题可能已经在其他地方得到了回答,但我找不到它。我想在我的网络中使用 Elastic Search 作为 PDF 和 docx 的搜索引擎。我使用 fscrawler 将 PDF 提取到弹性搜索中。由于我要摄取的文档是多种语言的,因此我想使用 n-graming 进行词干提取。为此,我想像这样更新我的映射
现在我得到了这个错误消息
{ "error": { "root_cause": [ { "type": "mapper_parsing_exception", "reason": "根映射定义有不受支持的参数:[mappings : {title={properties={title={type=text, fields ={de={type=string,analyzer=german},en={type=string,analyzer=english},general={type=string,analyzer=trigrams}}}}}}]" } ],"type" :“mapper_parsing_exception”,“原因”:“根映射定义有不受支持的参数:[映射:{title={properties={title={type=text,fields={de={type=string,analyzer=german},en ={type=string,analyzer=english},general={type=string,analyzer=trigrams}}}}}}]"
},"status": 400 }
你知道我该如何解决这个问题吗?或者您知道如何在不使用 fscrawler 的情况下使用正确的映射来摄取文件吗?
elasticsearch - fscrawler 容器不健康(退出代码 126)
从 Docker shadiakiki1986/fscrawler 启动 fscrawler 时,我收到以下两个错误:
错误:对于 fscrawler 容器“XXX”不健康。
错误:启动项目时遇到错误。
不健康容器检查如下:
docker ps # 列出容器
docker inspect --format='{{json .State.Health}}'
{“状态”:“不健康”,“FailingStreak”:3,“日志”:[{“开始”:“2018-11-24T14:29:57.31355179-06:00”,“结束”:“2018-11- 24T14:29:57.395705557-06:00","ExitCode":126,"Output":"/usr/local/bin/docker-healthcheck: /usr/local/bin/docker-healthcheck: 是一个目录\n" },{"开始":"2018-11-24T14:30:27.408426387-06:00","结束":"2018-11-24T14:30:27.48572124-06:00","ExitCode":126,"输出":"/usr/local/bin/docker-healthcheck: /usr/local/bin/docker-healthcheck: 是一个目录\n"},{"开始":"2018-11-24T14:30:57.497604654- 06:00","End":"2018-11-24T14:30:57.575523908-06:00","ExitCode":126,"Output":"/usr/local/bin/docker-healthcheck:/usr/local/bin/docker-healthcheck: 是一个目录\n"}]}
elasticsearch - fscrawler 中的触摸命令
我正在使用 FScrawler 来索引我的文档。每当我将新文档添加到文件夹时,我想知道如何使用触摸命令。还是会自动编入索引?
elasticsearch - 运行爬虫时收到致命错误
我想将二进制文件(PDF、WORD、TEXT)索引到 elasticsearch 中,为此我使用了 fscrawler,并且在运行 fscrawler 时出现以下错误。
我已关注此链接:https ://fscrawler.readthedocs.io/en/latest/user/getting_started.html
配置文件 - YAML
这个位置/home/gowtham/Documents有一个 pdf 文件
我收到以下错误
请帮我解决这个问题。
提前致谢。