问题标签 [delta-index]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
212 浏览

solr - Solr 增量导入

我们有一个帖子表

每个帖子可以分配或删除多个标签

如果删除了标签或添加了新标签,那么当我进行增量导入时,我该如何编写子实体标签,然后应该更新发布文档?

这是我的mapping.xml的一部分


0 投票
1 回答
141 浏览

solr - 在 XPathEntityProcessor 中执行 Delta 导入的任何方法?

根据 SOLR 文档:

唯一支持增量导入的 EntityProcessor 是 SqlEntityProcessor!

XPathEntityProcessor 尚未实现它。因此,不幸的是,目前没有对 XML 的 delta 支持

任何人都尝试过通过任何其他方式成功地使用 XPathEntityProcessor 实现增量导入?

0 投票
0 回答
237 浏览

tomcat - 带有 Tomcat 增量导入的 Solr 不起作用

我是 Solr 的新手。我想问一个问题,我不知道为什么我的 solr delta-import 不起作用。我认为我已经正确配置了我的核心 solr 配置、模式和数据配置。

完全导入效果很好,但增量导入却不行。

我猜我的 Solr 没有正确读取 dataimport.properties 上的“last_index_time”,因为在我的 dataimport.properties 文件中没有“dataimport.last_index_time”。

这是我的 solr 核心配置:

solrconfig.xml

架构.xml

db-data-config.xml

数据导入.properties

我尝试通过向 MySQL RDBMS 添加一条记录来查看 delta-import 工作,但我没有看到我的 delta-import 工作。(索引未更新)

仅供参考,我将Solr 4.10.3Tomcat 8.0.20 一起使用

0 投票
1 回答
481 浏览

sphinx - sphinx delta搜索索引并在cron作业中合并

我在 cron 作业中实现了增量索引,这是

在 putty 中运行时两者都运行良好,但在 cron 作业中运行时在日志文件中出现以下错误。

我必须为另外四个表做同样的事情,并且都给了我同样的错误。我用谷歌搜索了这个错误,它说创建一个 bash 文件,然后运行该文件中的所有代码,但我也没有工作,我的 bash 文件没有工作。有什么帮助吗?

0 投票
2 回答
366 浏览

sphinx - sphinxsearch 增量索引更新

我对 Delta-index 更新有疑问。
如果文档 id 小于max_doc_id, 不包含在 delta-index 中,所以只要 main-index 没有更新,更改将不会应用此数据。
假设我们有 1000 个数据。
如果第 50 个文档发生更改,则 delta-index 将不会发生更改。
delta-index 将如何包含其 id 小于的文档更改max_doc_id
有没有办法让 delta-index 包含更新的数据,这样我们就不必等待 main-index 运行?

0 投票
1 回答
136 浏览

solr - SolrCloud 上完全重新索引的频率

我需要多久在 SolrCloud 上运行一次完整的重新索引?完整的重新索引运行需要超过 12 个小时,我们每晚都运行它,但是当 delta 运行正确时真的有必要这样做。新数据以每 30 秒每个 delta 2000 个文档的速度进入。总索引大小:20GB Solr:6.5.2

0 投票
0 回答
154 浏览

performance - Solr 处理增量导入频率的能力

我想安排一个系统,在 db 系统中创建新项目后立即在 Solr 中建立索引,以避免基于时间的增量轮询延迟几分钟。所以我稍微调整了增量导入并使其基于查询参数工作。在我的 c# 代码中,当一个新项目被保存时,我构造一个 deltaimport url 并将 newsid 传递给被索引并通过 httpwebrequest 调用它。然后它使用增量查询从数据库中获取详细信息并对其进行索引。

这按预期工作。但是现在,当新闻流量变大时,问题就来了,比如一次有 5 条新闻。url 被循环中每个项目的代码命中,但它是如此之快,以至于观察到一个(第一个)或有时 2 个项目仅被索引。错过了休息。

所以,我相信 Solr 几乎不能同时处理 delta 的多次点击。我该如何克服这种情况?

0 投票
3 回答
37 浏览

python - 返回与两个列表不同的第一个元素并停止比较

我在 python 上的一个项目上工作,我需要返回两个列表列表之间的第一个增量(差异)。并且内部列表中的每个位置都引用一个名称。

我成功地为每个参数返回了第一个增量,但我想在第一个带有增量的子列表处停止。

我的实际代码是:

我使用 break 来停止比较子列表,但它会继续比较下一个子列表。

输出 :

但我只想:

因为它是第一个有 delta 的索引

如果我添加 return l_par[i]它将打印 ALPHA ,但正如我们所见,它在索引 3 中,所以不在第一个带有 delta 的子列表中。

0 投票
1 回答
47 浏览

azure-synapse - 写入增量接收器时对数据进行分区

在 Azure 映射数据流中,我们现在可以选择以增量格式保存文件。但这仅在我们选择内联数据集(没有数据块订阅)时可用。并且当 sink 数据集是 inline 数据集时,它不允许基于任何列设置分区。

我可以编写 pyspark 代码来重写具有所需分区的增量表。但这会产生额外的费用。

有什么办法可以在增量数据上获得良好的性能?