问题标签 [fscrawler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 如何映射由 fscrawler 创建的索引,以便可以对文档进行精确的全文搜索?
我有一个由 fscrawler 创建的二进制文件的索引(具有默认映射)。
我正在使用 php-elasticsearch 查询我的索引:
我正在尝试对内容字段(正文)进行精确的全文搜索。我该怎么做?
java - elasticsearch 和 fscrawler 的 JVM 设置
我正在使用 elasticsearch 和 fscrawler 搜索大约 7TB 的数据。该过程开始良好,直到它在某个时间后停止。它一定是内存不足,我正在尝试使用https://fscrawler.readthedocs.io/en/latest/admin/jvm-settings.html添加我的堆,但我不断收到错误无效的最大堆大小。
这是设置堆的正确方法吗?我错过了什么?
ruby - 将文档上传到 FSCrawler 以在 Elasticsearch 中建立索引的正确方法
我正在对 Rails 应用程序进行原型设计,以将文档上传到 FSCrawler(运行 REST 接口),以合并到 Elasticsearch 索引中。使用他们的例子,这有效:
文件被上传,内容被索引。这是我得到的一个例子:
当我curl
在命令行运行时,我得到了一切,比如正确设置了“文件名”。如果我如上所述使用它,在 Rails 控制器中,如您所见,文件名设置为 Tempfile 的文件名。这不是一个可行的解决方案。尝试使用params[:document][:upload].tempfile
(without .path
) 或params[:document][:upload]
两者都完全失败。
我正在尝试以“正确的方式”执行此操作,但是使用正确的 HTTP 客户端执行此操作的每一个化身都失败了。我不知道如何调用 HTTP POST,它将文件提交给 FSCrawler 的方式curl
(在命令行上)。
在此示例中,我只是尝试使用Tempfile
文件对象发送文件。出于某种原因,FSCrawler 给了我评论中的错误,并获得了一些元数据,但没有内容被索引:
如果我将上面的内容更改为 use params[:document][:upload].tempfile.path
,那么我不会收到有关 InputStream 的错误,但我也(仍然)没有得到任何索引的内容。这是我得到的一个例子:
如果我尝试使用 RestClient,并尝试通过引用 Tempfile 的实际路径来发送文件,则会收到此错误消息,但什么也得不到:
如果我尝试访问.read()
该文件并提交该文件,那么我会破坏 FSCrawler 表单:
显然,我一直在尽我所能尝试,但我无法复制curl
任何已知的基于 Ruby 的 HTTP 客户端所做的任何事情。我完全不知道如何让 Ruby 以一种可以正确索引文档内容的方式向 FSCrawler 提交数据。我在这方面的时间比我愿意承认的要长得多。我在这里想念什么?
elasticsearch - 如何在 elasticsearch 中摄取 .doc / .docx 文件?
我正在尝试在我的弹性搜索环境中索引 word 文档。我尝试使用 elasticsearch 摄取附件插件,但似乎只能摄取 base64 编码数据。
我的目标是用 word 文件索引整个目录。我尝试使用FSCrawler,但遗憾的是它目前在索引 word 文档时包含一个错误。如果有人可以向我解释一种索引包含 word 文档的目录的方法,我将非常感激。
elasticsearch - .eml 格式数据导入elasticsearch
现在我有.eml格式的邮件需要解析,然后导入elasticsearch,通过fscrawler,但是fscrawler不能扫描发件人和收件人信息,请问如何解决
elasticsearch - 是否可以使用 FSCrawler 将文件内容提取到 Elasticsearch 中现有索引的特定 _id
我已经将数据提取到现有的 Elasticsearch 索引中,其中 _id 作为数据库中的列名“mainid”值之一。现在我有另一个表,其中有两列“mainid”和文件路径。我想使用 fSCrawler 将这些文件摄取到现有的 Elasticsearch 索引中,并且文件应该被摄取到相应的 _id 中。
elasticsearch - FSCrawler 爬取 E:\TestFilesToBeIndexed\subfolder 时出错:java.net.ConnectException:连接超时:连接
抓取路径\to\file_folder 时出错:java.net.ConnectException:连接超时:连接
我正在尝试使用 FSCrawler 将远程服务器文件摄取到 Elasticserach 的现有索引中(位于我的本地计算机上),但出现异常。
下面是 FSCrawler 的 _settings.yml 文件:
elasticsearch - FScrawler:仅对没有文本的 PDF 文件有选择地执行 OCR
我正在使用 FScrawler (2.7) 将 PDF 中的文本加载到 Elasticsearch (7.6.X) 中。大多数 PDF 文件都有文本,但有些 PDF 文件包含扫描文本的图像,需要进行 OCRed。有没有办法配置 FScrawler,例如它只对包含扫描文本图像的 PDF 文件执行 OCR,而不是对已经有文本的文件执行 OCR?
到目前为止,我可以将其配置为不对任何文件进行 OCR(案例 1)或对所有文件进行 OCR(案例 2)。在第一种情况下,FScrawler 会跳过所有带有扫描文本图像的文件,但会非常快速地加载所有带有文本的文件。在第二种情况下,它需要很长时间,因为它对所有文件进行 OCR,包括那些已经有文本的文件。
这是 FScrawler 的 OCR 选项设置: https ://fscrawler.readthedocs.io/en/latest/user/ocr.html
案例1的配置:
案例 2 的配置:
PS 我可以使用其他方式将 PDF 分类为 OCRed 和非 OCRed 文件,并为每一堆 PDF 文件设置两个单独的 FScrawler 作业,但在此之前,我想检查是否有更简单的方法来使用 FScrawler 原生功能。