问题标签 [dih]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1450 浏览

sql-server - Solr 4.5 与 Tomcat 8 DataImportHandler 与 MSSQL 2008 R2

我已经尝试了互联网上的所有其他问题和一些教程。一切都以相同的错误结束。找不到类异常。C:\solr我已经在主目录下安装了solr,C:\solr_home并且Tomcat的安装在C:\Tomcat 我已经复制了C:\Tomcat\lib文件夹中的Microsoft驱动程序

C:\solr_home\collection1\conf\solrconfig.xml

...

C:\solr_home\collection1\conf\data-config.xml

我收到以下错误

0 投票
0 回答
3372 浏览

xml - 使用 DataImportHandler 在 Solr 中索引 XML 文件

我必须索引一些 XML 文件。文件结构为http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id=24069587,1568,4069587,2598965,18000000,254875,587895&rettype=fasta&retmode=xml

我编辑了 Solr 配置文件:

数据配置.xml

schema.xml

我已将请求处理程序配置为:

当我第一次向 Solr ( ) 发出完全导入请求http://localhost:8983/solr/dataimport?command=full-import时,我得到以下响应:

第二次,我得到了这样的回应:

当我查询 Solr 时,我发现没有文档被索引。谁能帮我解决这个问题?架构和数据配置是否正确?

0 投票
1 回答
986 浏览

xpath - 连接子节点 XPathEntityProcessor Solr DIH

我正在尝试通过 DIH 使 solr 字段的值包含有关 XML 中父子关系的信息。

这是数据配置:

示例 XML:

我将如何指定:

这样我就可以拥有相应的规范实例:

理想情况下,名称和子名称之间有一个分隔符,例如:

0 投票
1 回答
90 浏览

html - 如何使用 DIH 在 apache slor 中索引 html 文件

我是 apache solr 的新手,并试图使用 DIH 在 apche solr 中索引 html 文件。有人可以帮助我找到正确的方向。

0 投票
1 回答
4588 浏览

mysql - Delta-import 收集数据但不更新 solr 索引

我有一个 solr 索引,我正在使用 mysql DB 进行 DIH。

当我运行该delta-import命令时,正在收集自上次完全导入以来在 DB 中插入的 4 行,但索引没有更新!

这是 db-data-config.xml:

但是索引仍然没有更新......我该如何解决这个问题?

这是核心的 conf 文件:
https ://github.com/MuhammadHewedy/db_cores/tree/master/db/conf https://github.com/MuhammadHewedy/db_cores/blob/master/db/conf/db-data -config.xml https://github.com/MuhammadHewedy/db_cores/blob/master/db/conf/schema.xml https://github.com/MuhammadHewedy/db_cores/blob/master/db/conf/solrconfig.xml
谢谢。

0 投票
2 回答
1652 浏览

solr - SOLR:使用 splitBy 填充多值字段的不一致

我在使用 splitBy 功能从管道分隔的数据源填充多值字段时遇到问题。我的实现似乎部分适用于其中一个领域,而不适用于另一个领域。下面是我的实现示例。

我有一个包含以下数据的数据库视图:

recordId 重新列出 dbaName

1 PA21|MD29 香港龙|去皮的苹果

我的配置:

我的 schema.xml 片段:

我的期望是,当数据被拆分和存储时,文档看起来像这样:

但是,这就是我得到的:

我的问题:

  1. relist 正在拆分,但它还包括列表中的原始分隔值
  2. dbaName 没有被拆分

任何帮助,将不胜感激。

谢谢

0 投票
1 回答
146 浏览

solr - solr 对不相关的实体字段进行排序

我的文档结构是这样的

在仅涉及 entity1 列的查询中,如果我在 sort 子句中添加 entity2 列,为什么结果会受到影响?我的查询仅针对与 entity2 无关的 entity1 列。solr 是否首先在整个“文档”上应用排序子句,然后应用查询条件?

文档内容为 -

如果 sortMissingLast="false" 和 sortMissingFirst="false" (默认值),则将使用默认的 lucene 排序,它将没有字段的文档首先放在升序排序中,最后放在降序排序中。有人可以详细说明粗体字吗?

0 投票
2 回答
79 浏览

mysql - Solr DIH Mysql 配置

这是我的 DIH data-config.xml,
它正在导入 id,user_id 但不是 uid,schema.xml 中的 flagged_by 是

0 投票
0 回答
127 浏览

solr - SOLR DIH 集群环境

我配置了 solr 云环境,启动并运行,完全没有问题。但是现在我需要在循环中运行增量导入.. 每次这个导入过程完成时都会启动另一个。

注意事项:

  1. 所有节点中的相同 DIH 配置。
  2. 3 个 solr 节点在负载均衡器后面运行(该命令可以在任何节点上执行)
  3. 如果导入器已经在一个节点中运行,我不想在第二个节点中执行它。
  4. 我想在最后一次执行完成后立即运行 DIH。
  5. 如果一个节点在导入过程中出现故障,我想说..这花费了太长时间..让我们开始另一个导入过程。(如果有一种方法可以识别该过程在其运行时运行的节点掉线了,所以我可以检查它并保存该信息以找出原因..这会很棒)
  6. 我每分钟都有很多事件发生在数据库上,我真的需要 Solr 上的所有这些事件(数据库记录)(文档是最新的)

选项和想法

  1. 我正在考虑使用 JBoss EAP 5.1 来运行带有 TimerService 的外部应用程序,我有一个集群,我可以确保它将永远运行,询问状态并在循环中重新启动 DIH 进程。
  2. 我正在查看并测试 DHI 事件列表器

    /li>

com.me.MyNotificationService 这可以让我知道该过程何时完成,但我仍然不知道如何将它连接到“运行 solr 导入应用程序”,因为这将在一个库上运行我的 JBoss AS 容器(再次如果 Solr 节点出现故障,我也会丢失通知)。

  1. 如果有办法确保这个循环不会被打破。如果所有这一切都由 Solr 集群管理(并处理诸如节点在导入过程中出现故障的情况),我会忘记那个外部“运行 solr 导入应用程序”,但我真的不认为这是可能的.

  2. 对 Solr 集群说在这个节点(比如说节点 2)上执行这个导入过程,然后让我知道它什么时候完成或者给我一种询问状态的方法(甚至在那个特定的节点 2 上),这真的很有用如果我问节点 1,因为负载均衡器)

任何建议和想法都将受到欢迎。

谢谢。

0 投票
1 回答
1390 浏览

solr - Solr DIH 可以进行原子更新吗?

Solr 4 提供了对索引中的现有文档进行原子(部分)更新的能力。即可以匹配文档 ID 并仅替换一个字段的内容,或向多值字段添加更多条目:http ://wiki.apache.org/solr/Atomic_Updates

可以从 DataImportHandler (DIH) 完成原子更新吗?