问题标签 [dih]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3381 浏览

apache - Solr 4 - 缺少必填字段:uuid

我在使用 Solr4 中的 dataImportHandler 生成 UUID 时遇到问题。我试图从现有的 MySQL 数据库导入。

我的 schema.xml 包含:

然后在<types>

我的 Solrconfig.xml 包含:

每当我运行更新时,都会插入一些文档 ok ,购买很多返回:

0 投票
0 回答
405 浏览

solr - 并发 Solr DIH 全进口

我们的网站使用 Solr 进行搜索和过滤。我们使用 DataImportHandler (DIH) 来构建我们的索引并保持它是最新的。使用 cron,我们每天(在缓慢的时间)运行一次完全干净的导入,并使用此处描述的技术每 5 分钟进行一次增量更新:http ://wiki.apache.org/solr/DataImportHandlerDeltaQueryViaFullImport

我们的 Web 应用程序上的某些操作会触发对特定文档索引的更新。这些更新也通过 DIH 通过添加额外的 SQL 条件来匹配需要更新的文档来处理。

我们遇到的问题是,当一个索引更新正在运行时(完全导入大约需要 10 分钟,增量大约需要 30 秒),对 DIH 的任何其他请求都会被忽略,因此有时我们的应用程序触发的更新不会被执行。

我们正在考虑为作业队列和工作人员添加另一个架构层,并让所有索引更新请求都流经队列。

有没有人遇到过这个问题并且可以提出他们对这个问题的具体解决方案?非常感激!

0 投票
1 回答
926 浏览

solr - Best way to search dynamic list of fields using Solr?

We are implementing a search function using Solr as the backend engine. The data is extracted from the database using DIH. Key information of the document including:

All fields are stored and indexed.

We provide a single search box for the users to type any number of keywords and the system will search across all fields and try to match all of them. To do that, we create additional field that combine all information above using "copyField".

However, another requirement is that the user would be able to limit their search in selected target fields. For example, the user could select only name and purpose fields. In this case, the keywords search will only search from these two fields.

Currently, we use the following query approach to achieve the function:

For example, given that

the following search string will be dynamically generated and sent to Solr:

Are there any other way to implement the function? It would be much appreciated if you could share your expertise.

Thanks, Fan

0 投票
1 回答
234 浏览

mysql - SolR DIH 文件连接

我想使用 SolR DataImport Handler 来索引存储在数据库中的候选者以及链接到这些候选者的文件的内容。

我有一个包含候选列表的数据库表和另一个包含链接到候选的文件路径列表的表。

我需要的是:

  1. 索引候选数据 -非常简单......
  2. 遍历文件列表-我也设法做到了...
  3. 提取文件的内容(pdf、doc、xml、html等...-这部分完成
  4. 将所有文件的内容分组到一个内容字段中以进行索引

这实际上是我卡住的地方!我尝试了各种选项,但系统只索引第一个文件的内容。我尝试使用 javascript 全局变量,虽然这种工作似乎不是最好的解决方案......

此后查找我的 dih.xml 文件:

任何帮助将非常感激!

0 投票
0 回答
550 浏览

solr - Solr 用于更新索引的数据导入请求处理程序

我想将 Dbpedia 数据集索引到 SOLR 中。

  1. 我为此目的的架构是:schema.xml
  2. 我的 DIH 配置是:data-config.xml

一切都好,但我想要所有“类型”而不是最后一个“类型”。有没有办法用 DIH 更新 Solr?我不是说三角洲进口

更多解释:

上面的配置得到每一行,然后使用该正则表达式进行处理,最后 (uri,types,prettyTypes) 填充适当的数据。但例如对于“Alabama”,我们在 Dbpedia 的数据集中有 6 行:

现在这 6 行用 DIH 处理后,将只有 1 个带有 (Alabama, owl#Thing) 数据的 doc,其他 5 个类型将被删除。

0 投票
1 回答
228 浏览

solr - Solr DIH 索引速度很快,但搜索速度很慢

我有包含约 30 GB 数据的数据库表。我用 DIH 索引它。索引数据只需要 1 小时 15 分钟,但搜索速度非常慢,大约需要 1 分钟,这似乎不正确。请帮忙,如果有人遇到同样的问题。

我正在证明文件的内容。

数据配置.xml

schema.xml(仅更改字段以适合我的数据)

solrconfig.xml 没有变化

test_file_result_id 是 10 位数字的 id。并且综合症字段存储包含大量数据的blob)类型的日志文件内容)。

我想提一下,当我通过 test_file_result_id 搜索时,搜索结果会在一秒钟内出现,但对于综合症,需要一分钟以上。

提前致谢!!

0 投票
2 回答
10186 浏览

xml - 在 Apache Solr 中索引 XML 文件

我对 Solr 很陌生。在提出这个问题之前,我已经阅读了这篇文章(需要帮助使用 DataImportHandler 将 XML 文件索引到 Solr 中)。但是它没有帮助,因为我对 Apache Solr 很陌生。我正在寻找一个 xml 文件的索引并搜索它的内容。它的结构类似于这样

是否必须使用 DIH 将此数据导入 Solr?没有更简单的方法来完成任务吗?可以通过 SolrJ 完成吗,因为我也可以通过控制台输出结果。除了官方文档之外,如果有人可以向我指出一些有用的示例或资源,那将非常有帮助。

0 投票
1 回答
1454 浏览

windows - 在 Windows 7 中将 PostgreSQL 数据库导入 Solr

我正在尝试将 PostgreSQL 数据库导入 Solr 4.3.1,到目前为止,我将此代码添加到 Solrconfig.xml :

这就是新创建的 db-data-config.xml

所有这些文件都在 collection1 目录下,我做错了什么吗?

编辑:

当我使用 localhost:435/solr/TEST/dataimport 连接时

我收到这个错误

0 投票
1 回答
1154 浏览

postgresql - Solr DataImportHandler ERROR DocBuilder Exception while processing

我一直在尝试让 Solr DIH 与 PostgreSQL 一起工作几个小时,但我找不到问题,因为 Logger 并没有告诉我任何有用的信息。我的目标很简单,就是将数据库中的数据与 Solr 同步(使用 DIH)。

我的设置如下:

码头,Windows 8

solrconfig.xml(除了以下内容没有任何变化)

数据配置.xml

schema.xml(除了以下内容没有任何变化)

打电话http://localhost:8983/solr/solr/dataimport,我得到以下信息:

Solr 记录器 上面写着:

XML 响应浏览器

有人可以提供在哪里查找错误的提示吗?提前致谢!

0 投票
0 回答
54 浏览

sql - SOLR DIH:根据 splitBy 操作的结果执行查询

我正在尝试索引旧的 mySQL 数据库。(就像在可怕的规范化中一样)它包含一个发布表,其中包含一个主题列,其中包含一个以逗号分隔的主题 ID 列表和一个将这些 ID 与实际主题名称匹配的查找表。我想要做的是将每个主题的 id 和名称都检索到 SOLR 中,但它似乎不起作用。

这是我的 data-config.xml 的相关部分:

虽然 splitBy 工作正常并用适当的拆分数组替换了 release.subject 的值,但我已经为第二个选择查询尝试了各种排列,但它要么失败,要么什么也没检索。知道我可能哪里出错了吗?