问题标签 [haystack]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
303 浏览

elasticsearch - 类型错误:__init__() 缺少 1 个必需的位置参数:“内容”

当我在文档存储中编写文档时,我正在使用 Haystack 搜索查询,不幸的是,这个错误发生在我身上。这是我的代码:

0 投票
1 回答
57 浏览

python-3.x - 如何计算元数据并将其添加到现有 Elasticsearch 索引?

我将超过 3800 万个文档(文本字符串)加载到本地机器上的 Elasticsearch 索引中。我想计算每个字符串的长度并将该值作为元数据添加到索引中。

在将文档加载到 Elasticsearch 之前,我是否应该将字符串长度计算为元数据?或者,我可以在事后使用计算值更新元数据吗?

我对 Elasticsearch/Kibana 比较陌生,这些问题是由于以下 Python 实验而产生的:

  1. 数据作为字符串列表

    选项 1 的缺点是我没有利用 Elasticsearch,并且“mylist”占用了大量内存。

  2. 作为 Elasticsearch 索引的数据,其中“mylist”中的每个字符串都被加载到“text”字段中。

    选项 2 的缺点是计算时间更长。好处是 generator() 释放了内存。较长的计算时间是为什么我认为将字符串长度(和其他分析)作为元数据存储在 Elasticsearch 中是一个很好的解决方案的原因。

我应该考虑其他选择吗?我错过了什么?

0 投票
1 回答
83 浏览

python-3.x - ValueError:您必须包含至少一个标签和至少一个序列

我正在使用这个Notebook,其中Apply DocumentClassifier部分更改如下。

Jupyter 实验室,内核:conda_mxnet_latest_p37.

错误似乎是 ML 标准实践响应。但是,我传递/创建与原始代码相同的参数和变量名称。所以这与他们在我的代码中的值有关。


我的代码:

输出:

原始代码:

请让我知道我是否应该添加任何其他内容来发布/澄清。

0 投票
2 回答
715 浏览

python - ModuleNotFoundError:没有名为“milvus”的模块

目标:在 AWS SageMaker Jupyter Labs 上运行此 Auto Labeling Notebook 。

内核尝试:conda_pytorch_p36, conda_python3, conda_amazonei_mxnet_p27.


追溯:


追溯:

0 投票
1 回答
38 浏览

elasticsearch - 使用 Deepstackai haystack 自定义查询

我正在探索deepset haystack,发现它对于聊天机器人、搜索引擎、文档搜索等多个用例非常有趣

但是还没有找到任何可以为不同文档创建多个索引并基于索引进行搜索的参考。我想通过首先标记文档然后使用params查询 API 的参数来使用元标记进行条件搜索(在特定区域),但同样的似乎不起作用并引发错误(我使用了它的 vanilla docker-compose based设置)

在此处输入图像描述

0 投票
0 回答
33 浏览

python - BulkIndexError: ('2 document(s) failed to index.') - Elasticsearch + Python

起初我在我的预处理数据中发现了一些空值,所以删除了这些。(这是我的数据清理代码 - 以及包含在 '''Comments''' 中的相应输出)

每当我尝试使用我创建的示例数据集时,在我的 es_populate 笔记本中,使用稀疏检索器,我不断得到

我使用文档存储的方法是。

其次是上述错误。我对此很陌生,如果能提供任何帮助,我将不胜感激。