问题标签 [dih]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
329 浏览

solr - 在 Solr 上搜索跨字段 DIH 索引数据

我在我的 Solr 引擎中索引了 MySQL 数据库的一些数据。当我搜索关键字和字段名称时,它工作正常:“q=texted_value:car”返回我的数据库记录

但是,我需要能够在我的数据库中执行全文搜索,而无需提供字段名 (q=car)。那么我们该怎么做呢?如果它在我的数据配置中包含变压器或处理器,请您指导我吗?

我的 data-config.xml :

谢谢

0 投票
1 回答
152 浏览

sql-server - Solr DihR 错误 500

使用 DiH 将数据从 SQL Server 导入到 Solr 以进行索引时出现此错误:

0 投票
2 回答
235 浏览

search - solr 如何将数据拆分为不同的服务,因此无法同步使用?

以电子商务商店为例,该商店在不同的 Web 服务中具有目录和价格数据。现在,我们知道 solr 不允许对文档字段进行部分更新(JIRA 错误),那么您如何索引这两个服务呢?我有三种可能性,但我不确定哪一种是正确的:

  1. 部分更新 - 不可能
  2. Solr 加入 - 将价格和目录放在单独的索引中,并将它们加入solr。您不能将它们加入您的客户端代码,而不会搞砸分页和方面计数。我不知道这在 pre-solr 4.0 中是否可行

  3. 有某种中间索引服务,它根据这两个服务的结果组成整个文档并将其发送以进行索引。但是这种方法有两个问题:

    3.1 您仍然可以部分地撰写文档,然后当文档完成时,您可以设置一个标志,表明这是一个完整的文档。但是,每次必须对文档进行索引时,都必须先检查该文档是否存在于索引中,然后对其进行编辑并将其推回。因此,性能受到很大影响。3.2 你的中间服务检查一个特定的 id 是否可以从所有的服务中获得——如果不是静默地丢弃它,并希望当它出现在另一个服务中时,第一个服务已经被填充。这没关系,但这意味着在所有字段都可用之前,搜索中的项目不可用(总是不可取 - 如果您没有价格,您可以简单地将其设置为缺货并仍然可用)

在所有这些方法中,只有#3.2 对我来说是可行的——有人知道你是如何用 DIH 做这种事情的吗?因为现在,您有两个不同的入口点(2 个不同的 Web 服务)进入索引,并且每个都必须检查另一个

0 投票
1 回答
510 浏览

solr - Solr 1.4:没有使用自定义 UpdateRequestProcessorFactory 提交

我在 DIH 中使用 UpdateRequestProcessorChain 并得到数据未提交到索引的问题。我试图调试我的处理器并且它可以工作。完全导入命令的状态是:

但是 catalina.out 中没有信息表明调用了提交过程:

日志中没有任何错误。如果我在没有 UpdateRequestProcessorChain 的情况下使用 DIH,则提交没有问题。有人知道这里可能出了什么问题吗?

这是我的 solrconfig.xml 中的配置:

0 投票
1 回答
1917 浏览

solr - 如何使用 DataImportHandler 生成 Id?

我是 Solr 的新手,我正在努力导入一些不包含 ID 字段的 XML 数据,尽管它说我的 schema.xml 是必需的:

一个 XML 示例:

架构.xml:

此时,我需要从 http fetch 中导入这个 xml,然后我使用 DataimportHandler。这是我的 data-config.xml

然后,它似乎工作正常,但我收到以下错误:org.apache.solr.common.SolrException: [doc=null] missing required field: id

这让我认为我应该在导入时生成一个自动 ID,并使用 data-config.xml,但我不知道如何去做。

我应该怎么做?使用 ScriptTransformer?任何想法不胜感激

还有一个问题:我可以在导入期间强制一个值吗?

例如:(<field column="site" value="estacions"/>显然这不起作用)

0 投票
1 回答
147 浏览

solr - 在 Apache Solr 中使用嵌套实体是否有价值?

我想知道,在 Apache Solr DIH 中使用嵌套实体是否比使用连接查询更有价值?

谢谢。

0 投票
1 回答
1743 浏览

solr - Solr 中有多个 data-config.xml 或不同的导入处理程序?

我需要使用 DIH 导入多个数据库和 rss 源。

是否有可能使用多个data-config.xml?或者即使只使用一个,有没有办法配置不同的导入处理程序?

谢谢。

0 投票
1 回答
382 浏览

database - SOLR 索引 2 个数据库

我们正在尝试使用来自 2 个不同数据库的数据构建 SOLR 索引,

看着那个http://wiki.apache.org/solr/DataImportHandler#Multiple_DataSources,它似乎应该是可能的,但我们遇到了问题。

尝试运行索引器时,它适用于第一个实体/查询/ds,然后失败org.apache.solr.handler.dataimport.DataImportHandlerException: Unable to execute query: SELECT ZZZ FROM TABLE

似乎它正在尝试在 ds-1 上执行 query2 ...

我们还改变了数据源和/或实体定义的顺序,似乎它总是只能索引第一个。

我们做错了什么吗?我们对 SOLR 能做什么有错误的期望吗?

谢谢您的帮助

0 投票
1 回答
547 浏览

solr - 使用 DIH 索引后的 SOLR 内存消耗

我正在使用 solr 3.6。我每小时使用 DIH aprox 2.6GB 数据进行索引(现在,我使用完全导入,但我也知道增量导入)。我只为 JVM 使用 24GB 的 RAM。solr 实例是一个多核实现(现在有 8 个核心,但会增长),但只有一个核心有大索引(大约 2.6GB)。我观察到每个完整索引后 RAM 使用量都在增加,并且在我不重新启动 servlet 容器(码头)之前永远不会回来。这是来自 New Relic 的数据图像: New Relic 的码头快照

这是solr的问题还是错误?我想问题是垃圾收集。有什么建议吗?谢谢!

0 投票
1 回答
732 浏览

coldfusion - Coldfusion10 Solr cfindex数据导入与DataImportHandler不同,如何配置data-config.xml?

我正在尝试使用 Coldfusion10 进行 solr 搜索。我在 Solr 安装中使用了构建,并使用 CF Admin 创建了集合。它创建了一个 schema.xml,应该与 cfindex 和 cfsearch 等一起使用。

首先,我在 Coldfusion 中编写了一个导入脚本,通过查询获取数据并使用 cfindex 将其提供给 solr。

这很好用,但不够快。我可以完美搜索,如果我在搜索条件中拼写错误,它会给出我的建议查询结果。例如搜索“pleystation”建议g“playstation”等。

之后想尝试一下 Data Import Hanlder von Solr。我得到了一切工作,数据库连接,所有基本配置文件开始完全导入。

索引速度非常快,但没有给我任何建议等。我确定我没有正确配置 data-import.xml 文件。问题是,我不知道 Coldfusion10 如何处理我提供给 cfindex 标签并将其发送给 solr 的文件。

这是我尝试过的 data-config.xml 文件之一。

看起来使用 DIH Solr 处理内容的方式与使用 cfindex 时处理的方式不同。我尝试使用 cf 创建的 schema.xml 中的不同字段名称,例如比赛等,但这没有帮助。

对这个问题的任何帮助或建议都会很棒:)

问候马库斯