问题标签 [dih]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2021 浏览

mysql - 在 Solr 中索引代表货币的小数的最佳方法是什么?

我在 MySQL 表中有一个十进制列,它代表钱。我想使用数据导入处理程序将这些数据导入 Solr。我不确定存储这些数据的最佳方式是什么。我想到了这些选项:

浮动:会引入不准确性。

字符串:会使搜索范围变得困难。

Int:将要求每个数字在被索引之前乘以 100,并在检索时除以 100。

货币:Solr 4.0 的新功能。此字段类型是否合适,还是用于货币转换?

我正在使用 Solr 4.0.0。

0 投票
1 回答
924 浏览

solr - Solr + DIH + Tika :索引大量文件,如何处理删除的文件?

我有大量的 PDF/Word/Excel/等。要索引的文件(现在 40GB,但在某些月份可能高达 1000GB),我正在考虑使用 Solr,带有 DataImportHandler 和 Tika。我已经阅读了很多关于这个主题的主题,但是有一个问题我仍然没有找到解决方案:如果我索引所有文件(完整或增量导入),删除文件系统中的一个文件,然后再次索引(使用delta import),则不会从索引中删除该文件对应的文档。

这里有一些可能性:

  • 进行完全导入。但我想尽可能避免这种情况,因为我认为这可能非常耗时(几天,但不是很重要)和带宽消耗(主要问题,因为文件位于共享网络驱动器上)。
  • 实现一个脚本,该脚本将验证索引中的每个文档是否存在相应的文件(占用更少的带宽)。但我不知道我是否应该在 Solr 内部或外部执行此操作,以及如何操作。

您还有其他想法或执行第二种解决方案的方法吗?提前致谢。

一些细节:

  • 我将使用 FileListEntityProcessor 的“newerThan”选项进行增量导入。
  • 如果我存储文档被索引的日期,它对我没有帮助,因为如果我在上次导入时没有索引一个文档,可能是因为他已被删除或因为它没有更改(增量导入)
  • 我既有存储字段也有未存储字段,因此我认为使用 Solr 4.0 的新可能性仅更改文档中的一个字段不是解决方案。
0 投票
2 回答
2137 浏览

solr - Solr DIH 中的联接查询和嵌入式实体有什么区别?

我正在尝试使用 Solr 的数据导入处理程序跨多个表索引数据。DIH 上的官方 wiki建议使用嵌入式实体来链接多个表,如下所示:

另一种有效的方法是:

这两种方法在功能上是否不同?有性能差异吗?我的猜测是第一种方法是支持非 SQL 表,但我不确定。

另一个问题是,如果在 MySQL 中使用连接表,使用带有多个连接的 SQL 查询方法可能会导致多个文档被索引而不是一个。

0 投票
1 回答
470 浏览

solr - 错误:在 Solr 的 DIH 配置文件中使用嵌入式实体“缺少必填字段”

我正在尝试使用 Solr 的数据导入处理程序 (DIH) 从 MySQL 数据库中导入多个表。DIH 不会从第二个表“详细信息”中导入数据。

我的数据库配置文件是

我监控了 MySQL 查询日志,执行的两个重要查询是:

显然,配置文件中的“${item.listingid}”部分没有按要求工作。我为表名和列名尝试了不同的拼写,但无法正常工作。

0 投票
1 回答
3655 浏览

mysql - Solr DIH 错误:无法读取:dataimport.properties

安装 Solr 4 后,我使用 DIH 进行了完全导入,但在错误日志中出现以下错误:

Catalina.out

令我困惑的是这条线Unknown character set index for field '3687' received from server.。任何表中都没有字段3687

我基本上是在设置一台新服务器并尝试从旧服务器迁移到该服务器。我使用 Puppet 配置了新服务器,并将所有数据库转移到新服务器上的 MySQL 数据库。

服务器是运行 MySQL 5.5.28-0ubuntu0.12.04.2、Tomcat 7.0.26、Solr 4.0.0.2012.08.06.22.50.47 的 Ubuntu 12.04。旧服务器是运行 MySQL 5.5.24 的 Ubuntu 12.04

知道完全导入出了什么问题吗?谢谢!

0 投票
1 回答
202 浏览

solr - 有没有办法将 js 库文件导入我的 DIH 脚本?

我正在使用 DIH 导入一些数据,我想使用脚本转换器在索引之前执行一些转换。由于转换有点复杂,我正在使用外部 js 库。

我的问题是:有没有办法将 js 库文件导入到我的 DIH 脚本中?

像:

0 投票
3 回答
603 浏览

solr - 来自 mysql 的多个字段索引的 DIH 增量导入

solr DIH delta 导入中的 pk 是什么?我正在尝试对 solr 中的多个字段进行增量索引?

0 投票
1 回答
3398 浏览

solr - 将数据库列拆分为多值 Solr 字段

我要疯了,试图弄清楚如何让数据导入处理程序的splitBy构造工作。我期待它将输入列拆分为一个多值字段。这是一个重现问题的测试用例:

以及测试用例的 POM:

关于如何让这些类型正确拆分为多个值的任何见解?

0 投票
1 回答
4521 浏览

solr - xml 文件的 DIH(数据导入处理程序)在 Solr4 中不起作用

我已经在服务器上安装并配置了 Solr4 和 tomcat6。它工作得很好,但是当我尝试构建 DIH(数据导入处理程序)时,它给了我一个错误,我无法解决。

我将以下代码添加到我的 solrconfig.xml 文件中

我的 data-config.xml 文件如下所示

当我点击 localhost:8080/solr/ 时我​​在浏览器上遇到 浏览器中的错误 的错误我的错误日志中的错误是

你能建议我如何解决这个错误?

0 投票
1 回答
1226 浏览

mysql - Solr 4.0 Delta-import 3 表连接

我在 Ubuntu 上使用 Solr 4.0 DIH(JDBC 连接器)。我正在尝试使以下 MySQL JOIN 查询与 Solr 一起工作Delta-import

这里 c, u, g 分别是表和customer的别名。usergroup

以下是data-config.xml完整和增量导入的文件:

没问题,full-importDelta-import不工作(增量导入后我没有得到任何结果)。自从我试图完成这项工作以来已经快一个月了,但做不到。

有什么帮助吗?请!