问题标签 [dih]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1167 浏览

java - 无法加载 EntityProcessor 实现

我正在尝试将其mongo用作数据源,solr因此我跟随James的 DIH 在我的 solr 应用程序中使用它,我在我的lib文件夹中添加了以下内容

  1. solr-dataimporthandler-1.4.1
  2. solr-mongo-importer-1.0.0
  3. nlog4j-1.2.17 // 因为它要求 LoggerFactory 类
  4. mongo-2.10.1

在我的数据配置文件中,只需以下内容:

每当我尝试进行完全导入时,都会抛出如下异常:

谁能告诉我我在搞砸什么以及如何解决这个问题?

0 投票
1 回答
1763 浏览

solr - solr:使用 DIH 从不同的数据源导入

我正在尝试使用 DataImportHandler 从 2 个不同的数据源(xml 和 db)填充 Solr 索引。

第一次尝试:创建 2 个 data-config.xml 文件,一个用于 xml 导入,一个用于 db 导入。db-config 会读取id并让我们说 field A。xml-config 也id和 field B

这对两者都有效(我可以从两个数据源导入),但索引每次都被覆盖(clean=false当然),所以我要么有idA要么idB

以此类推第二次尝试:将 2 个文件合并为一个

我猜 - 部分有点有趣id = '${f.file}',但那是使用的 id。select 语句的格式正确,但是当我尝试在dataimport.jsp. 第一部分(xml)工作正常,但是当他到达 db 部分时,它会引发:

有什么建议吗?提前致谢


编辑 我发现了 FileNotFoundException 的问题:在实体标签中,datasource-attributes 需要为驼峰式-> dataSource.. 现在它运行了,但结果与第一次尝试相同:只有字段B进入索引。如果我把 db-entity 拿出来,那么文件内容就会被索引(字段A

0 投票
1 回答
1002 浏览

solr - Solr:FileListEntityProcessor 正在多次执行子实体

我已经配置了一个 dih-import.xml,如下所示。FileListEntityProcessor遍历一些文件夹,然后为每个文件执行一个 XPathEntity 和一个 DB-Entity 。

当我对大约 30.000 个文件执行完全导入时,导入花了将近 3 个小时。回到 DIH 调试控制台,它向我显示,对于找到的第一个文件,进行了 2 个 db 调用,对于第二个 4,然后是 6、8、..

谷歌没有向我展示关于这个主题的任何内容,所以我希望你:)

提前致谢


编辑 在谷歌发现问题,但也没有答案:http: //osdir.com/ml/solr-user.lucene.apache.org/2010-04/msg00138.html


和另一个编辑

将 solr 从 3.6 更新到 4.1 并执行导入程序。问题仍然存在,只是不再有 2n (2, 4, 6, 8, ..) 调用子实体,而只有 n。

0 投票
1 回答
173 浏览

solr - 如何使用 DIH 将多个文件导入 Solr

我有一些数据存储在文件中,每一行代表一个记录。所以,我正在使用 LineEntityProcessor 和 FileDataSource。Tt 可以导入一个文件,但我的数据存储在多个文件中。有什么方法可以同时将多个文件导入 Solr?

0 投票
0 回答
242 浏览

solr - 太阳黑子轨道中的数据导入处理程序

我在mysql中有一些表。我想使用数据导入处理程序导入一些数据并使用 Solr 索引这些数据。可能吗?。我看到我们需要从这个链接中对 data-config.xml 文件进行一些修改。是否可以在 Sunspot Rails 中使用 DataImportHandler?

如果是这样,当我在执行此数据导入时执行 rails 应用程序时。因为使用 rails 应用程序,我相信无法提供 DIH 命令,例如 fullimport、deltaimport 等。

请帮我解决,因为我对 DIH 和 solr 之间的交互以及这些程序的流程有点困惑。

0 投票
1 回答
910 浏览

ruby-on-rails - HTTP 错误 500:solr 配置中的严重错误。Ruby on rails

当我尝试使用 DIH 从 mysql 表中导入数据时,出现此错误。

这是我的 schema.xml 代码

data-config.xml 有以下代码:

这是 solrconfig.xml 文件

我下载了 mysql-connector-java-3.1.14.tar.gz 并将其解压缩并复制到 lib 目录。Ami正确定义文件目录?请帮我解决这个问题。

0 投票
1 回答
709 浏览

templates - 将一个字段转换为 solr 数据导入处理程序的多个值

我想通过 DIH 从 mysql 表中建立索引。一列是称为“标签”的整数类型,在 mysql 中用作按位处理查询。

因此,我打算将“标签”转换为数据导入处理程序中的多个值,以便我可以使用 BooleanQuery 以获得更好的性能。

一种解决方案可能会创建自定义的 DIH 模板,您能给我一些建议吗?

谢谢。

0 投票
0 回答
485 浏览

solr - solr 数据导入处理程序需要很长时间

当我尝试使用完全导入命令从数据库中导入所有数据时,sql 查询是三个联合表,每个表有 1M 条记录。对数据源的第一个请求花费了太多时间。直到现在我还没有得到完整的结果。

从命令=状态,

对数据源的总请求数始终为“1”

数据导入处理程序的处理流程是什么,为什么对数据源的第一次请求如此耗时?如何提高全导入性能?

谢谢。

0 投票
1 回答
1158 浏览

solr - Solr dih 最后索引时间偏移

Solr last_index_time 是 dih 启动时的 Solr 服务器机器时间。如果系统分布在多个没有确切时间戳的服务器上,如何处理时差?

我的一个解决方案是设置一个容差,例如 5 分钟,在执行 dih delta 导入时,将上述 last_index_time 减去 5 分钟。尽管将处理一些重复的项目,但 Solr 将覆盖现有项目。

你能给我一些建议吗?谢谢。

0 投票
2 回答
7731 浏览

solr - 增量导入处理程序无法正常工作

我按照@提到的步骤操作:http://wiki.apache.org/solr/DataImportHandler

我还尝试了 stackoverflow 的其他解决方案,但仍然无法正常工作。

问题是: 我每次运行它时仍然配置了 Delta-import 处理程序;它索引数据库中的所有记录。我在数据库中有 30 条记录。每次我运行 delta import 时,它都会索引所有 30 条记录。我只希望那些被更改/删除的应该被索引。

对此问题的任何快速帮助/指针/解决方案表示赞赏。


数据配置.xml


我用来执行它的命令是:


dataimport.properties 文件:

2013 年 5 月 10 日星期五 17:13:18 IST

last_index_time=2013-05-10 17\:13\:18

book.last_index_time=2013-05-10 17\:13\:18

dataimporter.last_index_time=2013-05-10 17\:11\:42


我得到的 XML 响应如下:


在日志文件中,我得到以下内容: