问题标签 [vespa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
vespa - 从 Vespa 大规模检索文档
我正在寻找有关需要什么以及如何与 Vespa 连接以大规模检索索引数据的概述。我已经对 Vespa 文档 RESTful API 进行了压力测试,并且按照文档中的建议,它有一个上限。
http://docs.vespa.ai/documentation/document-api-guide.html指明了前进的方向,但假设在主题方面处于领先地位。
我能想到
以及相关的总线创建等。
增加了一些理解。
包 jrt https://github.com/vespa-engine/vespa/tree/master/jrt和一些更多的资源来提供帮助,但是要谦虚地接受,很难把它放在一起:)
问题是,如果记录在案,我找不到任何指南来清楚地解释如何从外部系统调用 vespa,或者如果这不可能,则运行嵌入式客户端以及它如何与 vespa 集群通信。
请指出是否存在这样的概述。
编辑:
- 另一个例子。想法?
vespa - Vespa - Proton:自定义分桶和查询
参考:
身份证方案
通过使用文档 ID 格式的 32 LSB(n / g 选择),可以在用户定义的分桶逻辑中构造数据。
但是,查询逻辑对于如何根据预先做出的决定将查询路由到特定的存储桶范围并不是很清楚。
例如,如果我可以定义 n(一个数字)压缩范围,则可以将数据拆分为一个时间范围(开始时间/结束时间)。标记为此类的所有文档最终都将放在同一个存储桶中(这将按照配置的文档数量/大小进行拆分)。
但是,我如何编写以这种方式索引的数据的搜索查询?是否可以指示处理器选择特定的存储桶或存储桶范围(以防分配算法可能已移动存储桶)?
vespa - vespa - 启动 Vespa 过程通常需要多长时间来重建属性的 mmap?
在将索引的搜索定义编写为“属性”时 - 我从http://docs.vespa.ai/documentation/search-definitions.html读到它将字段保存在内存中。基本问题是:在集群重启的情况下,这个内存数据是从索引重建的吗?
在集群重启的情况下,Vespa 需要多长时间来重建内存中的属性?(假设一个节点有 2TB 的数据,并且一半的字段被定义为“属性”——mmap 大约为 1TB?)
vespa - Vespa 教程 – Pig 无法连接到本地 Vespa 端点:URISyntaxException
在遵循Vespa 关于博客推荐的教程时,我在从命令行调用 Pig 时遇到了连接到本地 Vespa 端点的问题ENDPOINT=$(hostname):8080
:
对于不熟悉 Pig 的人来说,按照教程一步一步来,这有点令人沮丧。
接受的答案可以获取正确的端口集。 Problem with Handshake flying-otter.local:8080
仍然是一个问题,但可能无关。
编辑添加,如果它有任何用处:Problem with Handshake
似乎在应用程序未激活时发生(即部署但忘记执行下一步)。
vespa - Vespa 教程 – HTTP API 用例无法通过 IllegalArgumentException 激活
我目前正在关注 Vespa 教程,但遇到了HTTP API 用例的问题。mvn install package
从到一切正常vespa-deploy prepare target/application.zip
。
调用vespa-deploy activate
正常返回,但应用程序永远不会在localhost:8080
. 查看/opt/vespa/logs/vespa/vespa.log
(在 VM 中)可以找到以下堆栈跟踪:
sample-apps
这是使用带有git 存储库的干净克隆的新 Docker 映像发生的。准备和激活基本示例以及其他 http 示例确实可以无缝运行。
我检查了源代码和 xml 文件是否存在明显问题,但对失败的原因和位置一无所知。
target/application.zip
包含
jar 本身确实包含一个com/mydomain/demo/DemoComponent.class
文件(除其他外)。
github 跟踪器上可能相关的问题:https ://github.com/vespa-engine/vespa/issues/3479我也会在那里发布这个问题的链接,但我仍然认为这是一个值得提出的问题,在至少要在vespa
标签后面采取一些行动:)
vespa - 有没有一种简单的方法可以删除完整的 Vespa 文档集?
使用 Yahoo 的vespa.ai,我现在有一个我很满意的搜索定义,但仍然存储了一堆垃圾测试文档。
有没有一种简单的方法可以一次删除/清除/删除所有这些,ala SQLDROP TABLE
还是DELETE FROM X
?
我在这一点上发现的唯一删除文档的地方在文档 JSON 格式页面中明确提及。据我了解,它需要一个一个地删除文档,这很好,但是当一个人只是在玩耍时会有点麻烦。
我尝试使用默认租户通过Deploy API删除应用程序,但在发出搜索请求时数据仍然存在。
我错过了什么?还是这是设计使然?
vespa - Vespa:我们可以在嵌套字段上进行聚合吗?
在搜索定义中,结构内的字段不能有“属性”索引。
http://docs.vespa.ai/documentation/reference/search-definitions-reference.html#field_types
此外,struct 和 maps 默认不是属性。生成的搜索定义如下所示:
如何添加搜索定义以便我们可以按“n.token”分组?是否可以为结构字段添加属性或索引?或者按不是属性的字段分组?
vespa - Vespa:如何为 centos7 配置 VESPA_HOME?
Proton 文档说http://docs.vespa.ai/documentation/proton.html所有数据都将存储在 $VESPA_HOME/var/db/vespa/search/
当我们从 yum 安装 vespa 时
它将环境变量 VESPA_HOME 设置为“/opt/vespa”
我们如何阻止数据进入 /opt/vespa?我们需要将 VESPA_HOME 设置为“/mnt1/vespa”
试过了,手动设置,之后通过yum安装;不起作用。
我们还有其他替代方法可以从“/opt/vespa”配置数据目录吗?
vespa - 如何在 Vespa 中配置分片?
我们要设置 4 个节点的集群来托管数据。并且集群只承载一个索引,因此在所有 4 个节点中具有相似的数据类型。
我们的目标是在节点上分片数据。假设两个碎片和两个副本。(总共 4 个节点来托管这 4 个数据分区)
文档模式为“index”,全局为“true”。
services.xml 中的上述配置是不允许的。它要求冗余至少与节点数量相同,我们需要配置,
和
让它接受一个有效的配置。
那就是将所有 4 个节点配置为拥有所有数据,并且每个节点都包含数据副本。根据http://docs.vespa.ai/documentation/content/data-placement.html - 我们需要 global=true。并注意到:
注意:全局文档功能正在开发中。它目前仅适用于所有文档已经固有地位于所有节点上的设置,即 N 个组,每个组包含一个节点。
如何在分片中分布数据?我们可以让 node1 和 node2 拥有分布式数据,并且 node3 和 node4 可以拥有冗余 2 的副本吗?
vespa - 如何在 Vespa 上快速进行聚合?
我们在索引中有 60M 文档。托管在 4 个节点的集群上。
我想确保配置针对文档上的聚合进行了优化。
这是示例查询:
字段 n_tA_c 包含字符串数组。这是示例文档:
n_tA_c 是具有快速搜索模式的属性
简单的术语聚合查询不会在 20 年代回归。和超时。我们需要哪些额外的检查清单来确保减少这种延迟?
这些节点是 aws i3.4x 大盒子。(16 核,120 GB)
我可能会错过一些愚蠢的东西。