问题标签 [delta-index]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - Solr 增量导入
我们有一个帖子表
每个帖子可以分配或删除多个标签
如果删除了标签或添加了新标签,那么当我进行增量导入时,我该如何编写子实体标签,然后应该更新发布文档?
这是我的mapping.xml的一部分
solr - 在 XPathEntityProcessor 中执行 Delta 导入的任何方法?
根据 SOLR 文档:
唯一支持增量导入的 EntityProcessor 是 SqlEntityProcessor!
XPathEntityProcessor 尚未实现它。因此,不幸的是,目前没有对 XML 的 delta 支持
任何人都尝试过通过任何其他方式成功地使用 XPathEntityProcessor 实现增量导入?
tomcat - 带有 Tomcat 增量导入的 Solr 不起作用
我是 Solr 的新手。我想问一个问题,我不知道为什么我的 solr delta-import 不起作用。我认为我已经正确配置了我的核心 solr 配置、模式和数据配置。
完全导入效果很好,但增量导入却不行。
我猜我的 Solr 没有正确读取 dataimport.properties 上的“last_index_time”,因为在我的 dataimport.properties 文件中没有“dataimport.last_index_time”。
这是我的 solr 核心配置:
solrconfig.xml
架构.xml
db-data-config.xml
数据导入.properties
我尝试通过向 MySQL RDBMS 添加一条记录来查看 delta-import 工作,但我没有看到我的 delta-import 工作。(索引未更新)
仅供参考,我将Solr 4.10.3与Tomcat 8.0.20 一起使用
sphinx - sphinx delta搜索索引并在cron作业中合并
我在 cron 作业中实现了增量索引,这是
在 putty 中运行时两者都运行良好,但在 cron 作业中运行时在日志文件中出现以下错误。
我必须为另外四个表做同样的事情,并且都给了我同样的错误。我用谷歌搜索了这个错误,它说创建一个 bash 文件,然后运行该文件中的所有代码,但我也没有工作,我的 bash 文件没有工作。有什么帮助吗?
sphinx - sphinxsearch 增量索引更新
我对 Delta-index 更新有疑问。
如果文档 id 小于max_doc_id
, 不包含在 delta-index 中,所以只要 main-index 没有更新,更改将不会应用此数据。
假设我们有 1000 个数据。
如果第 50 个文档发生更改,则 delta-index 将不会发生更改。
delta-index 将如何包含其 id 小于的文档更改max_doc_id
?
有没有办法让 delta-index 包含更新的数据,这样我们就不必等待 main-index 运行?
solr - SolrCloud 上完全重新索引的频率
我需要多久在 SolrCloud 上运行一次完整的重新索引?完整的重新索引运行需要超过 12 个小时,我们每晚都运行它,但是当 delta 运行正确时真的有必要这样做。新数据以每 30 秒每个 delta 2000 个文档的速度进入。总索引大小:20GB Solr:6.5.2
performance - Solr 处理增量导入频率的能力
我想安排一个系统,在 db 系统中创建新项目后立即在 Solr 中建立索引,以避免基于时间的增量轮询延迟几分钟。所以我稍微调整了增量导入并使其基于查询参数工作。在我的 c# 代码中,当一个新项目被保存时,我构造一个 deltaimport url 并将 newsid 传递给被索引并通过 httpwebrequest 调用它。然后它使用增量查询从数据库中获取详细信息并对其进行索引。
这按预期工作。但是现在,当新闻流量变大时,问题就来了,比如一次有 5 条新闻。url 被循环中每个项目的代码命中,但它是如此之快,以至于观察到一个(第一个)或有时 2 个项目仅被索引。错过了休息。
所以,我相信 Solr 几乎不能同时处理 delta 的多次点击。我该如何克服这种情况?
python - 返回与两个列表不同的第一个元素并停止比较
我在 python 上的一个项目上工作,我需要返回两个列表列表之间的第一个增量(差异)。并且内部列表中的每个位置都引用一个名称。
我成功地为每个参数返回了第一个增量,但我想在第一个带有增量的子列表处停止。
我的实际代码是:
我使用 break 来停止比较子列表,但它会继续比较下一个子列表。
输出 :
但我只想:
因为它是第一个有 delta 的索引
如果我添加 return l_par[i]
它将打印 ALPHA ,但正如我们所见,它在索引 3 中,所以不在第一个带有 delta 的子列表中。
azure-synapse - 写入增量接收器时对数据进行分区
在 Azure 映射数据流中,我们现在可以选择以增量格式保存文件。但这仅在我们选择内联数据集(没有数据块订阅)时可用。并且当 sink 数据集是 inline 数据集时,它不允许基于任何列设置分区。
我可以编写 pyspark 代码来重写具有所需分区的增量表。但这会产生额外的费用。
有什么办法可以在增量数据上获得良好的性能?