问题标签 [dataimporthandler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
464 浏览

sql - 通过 Internet 查询具有大量数据的 SQL 数据库时可能会出现哪些问题

我在一个 MSSQL 服务器上拥有这个大数据库,其中包含由网络爬虫索引的数据。每天我都想使用位于另一台服务器和另一个网络中的 DataImportHandler 更新 SOLR SearchEngine Index。

Solr DataImportHandler 使用查询从 SQL 获取数据。例如这个查询

ImportHandler 执行 8 种此类选择。每个选择将从数据库中获取大约 1000 行。

要连接到 SQL SERVER,我使用的是com.microsoft.sqlserver.jdbc.SQLServerDriver

我可以为连接添加的参数是:

  • responseBuffering="自适应/全部"
  • batchSize="整数"

所以我的问题是:

每天进行此查询时会出现什么问题? (网络错误除外)我想知道 SQL Server 在这种情况下是如何工作的?

此外,我必须对实现此导入的方式以及如何处理错误做出决定,但首先我需要知道会出现哪些错误。

谢谢!

稍后编辑

我的问题是我不知道这个 SQL 查询怎么会失败。当我每天调用这个导入器时,它会对数据库进行 10 次查询。如果第 5 个查询失败,我必须选择:回滚整个事务并再次执行,或者提交我从前 4 个查询中获得的数据并以某种方式重做第 5 到 10 个查询。但是如果由于其他一些问题,此查询总是失败,我需要考虑另一种方式来导入这些数据。

由于超时操作或类似的事情,这个通过互联网的 sql 查询会失败吗?

0 投票
2 回答
2105 浏览

solr - 使用 DataImportHandler 时应该使用什么 SQL 数据类型来填充 Solr 位置(空间)字段?

我有一个 Solr 架构,其中包含一个location字段(使用默认值solr.LatLonType):

我正在尝试使用 DataImportHandler 填充它。目前我SELECT的值是 nvarchar,格式为17.74628,-64.70725; 但是它没有填充 Solr 字段(它保持为空)。

此列应该采用什么类型和格式来更新locationSolr 中的字段?

0 投票
2 回答
704 浏览

json - Solr Json URLDataSource

Solr DataImportHandler 文档说我们可以使用 URLDataSource 索引来自其他 Solr 服务器的数据。谁能指导我如何为此目的生成数据配置文件?

例如,我有一个 Solr 服务器(称为服务器 A),它以 Json 形式返回项目。对 item_id ABCD-1234 的查询会产生如下结果:

如果我想通过 DataImportHandler 在不同的 Solr 服务器(比如服务器 B)中索引这些数据,那么服务器 B 的 data-config 配置文件会是什么样子?

0 投票
3 回答
3079 浏览

solr - 带有可选子实体的 Solr DataImportHandler

我正在配置DataImportHandler索引我的数据库,但我遇到了这个问题。

我有一个表 A,其中包含一个可以为空的整数字段 F,它是另一个表的 fk(称为 B)。我是这样建模的:

问题是,当 F 为 NULL 时,我得到一个运行时错误,因为 ${main.F} 被替换为空,它尝试执行以下查询:

有没有办法处理这种情况?

0 投票
2 回答
646 浏览

solr - Solr:文件实体处理器和增量导入

我正在使用 solr 3.3,我想将增量导入与文件实体处理器和 tika 实体处理器一起使用。完全导入工作正常,但 delta 导入参数不导入新文档。

谢谢

0 投票
1 回答
407 浏览

solr - How do you tie UIMA to SOLR Dataimporthandler?

We've been doing some tests with Apache UIMA. The results are amazing!

Our ideal set up would be a tight integration of UIMA with SOLR. Ideally, we like to pass all the content we index past UIMA, for additional metadata.

There are examples and documentation available how to do the the UIMA integration with the SOLR Update handler, but ideally we'd like to use the existing DataImportHandler (DIH). All our data is imported though a JDBC connection, and should be passed to UIMA before indexing.

Can anybody shed some light on how to accomplish this?

Thanks,

René

0 投票
2 回答
2404 浏览

xml - 如何将 Solr DataImportHandler 与 XML 文件一起使用?

我正在研究使用 DataImportHandler 来使用 FileDataSource 和 FileListEntityProcessor 导入我的数据文件,并且在开始之前有几个问题希望你们能提供帮助。

1) 我想在本地文件系统中的配置位置放置一个文件,让 Solr 查看和处理该文件,而无需我付出额外的努力。这是否可行?据我所见,这是不支持的,我必须手动调用一个 URL(例如 http://foo/solr/dataimport?command=full-import)。在面向数据库的世界中,基于 URL 的手动调用方法似乎非常合乎逻辑,人们可能会安排更新定期运行,但在我的情况下,我有几个相同的索引,我在它们之间进行负载平衡并且不想运行相同的索引大量并行查询。因此,我正在执行一个查询,将结果写入 XML 文件,将该文件推送到每个框,然后希望处理该文件。我希望这个过程尽可能自动化。

2) 我希望 Solr 处理的所有文件在导入后被删除。我目前还没有看到任何方法可以做到这一点。我认为我可能能够对某些东西进行子类化,但例如 FileListEntityProcessor 似乎没有在工作流中的正确时间提供任何句柄来删除文件。还有什么地方可以看吗?

3) 在阅读 DIH 文档时,我遇到了以下语句:“执行 delta-import 命令时,它会读取存储在conf/dataimport.properties中的开始时间。它使用该时间戳来运行 delta 查询,并在完成后更新conf/dataimport.properties中的时间戳。” 如果它确实将日期更新为完成日期,那么在开始日期和结束日期之间添加的任何文件会发生什么情况?他们迷路了吗?

4) 对于增量导入,我没有看到处理文件的排序方式,只是它尝试不重新导入比 conf/dataimport.properties 文件中提到的文件更旧的文件。在顺序很重要的情况下,它是按名称或创建日期对文件进行排序还是...?

0 投票
1 回答
3392 浏览

solr - 从多个实体导入 solr 中的数据

我正在尝试 SQLServer 数据库的数据导入处理程序。

我在 中添加了 DIhandler ,根据我的数据库模式solrconfig.xml创建了一个,并在其中添加了一个不同的字段。我正在连接 SQLServer 数据库。data-config.xmlschema.xml

连接并运行后,dataimport?command=full-import我没有正确获取 xml 标记(数据)。

在我的 data-config.xml* * ***

现在结果是* ** * ***

  1. 如果在两个表中都找到数据

    <文档>

    /li>
  2. 如果在 Item Table 但未在 ReturnSolrFilter 中找到数据,则不生成标签(这是未生成实际问题 CustomField 标签

<文档>

<int name="Item_ID">13773</int>

<str name="itemcode">15438680</str>

</文档>

0 投票
0 回答
1138 浏览

oracle - Solr DataImportHandler 索引中的 Oracle 日期不正确

我使用 Solr 3.4 来索引 DataImportHandler 从 oracle 10 数据库中检索到的字段。“DATE”类型的 Oracle 字段具有值:2011-09-20。“solr.TrieDateField”类型的 Solr 索引字段的值为 2011-09-19T22:00:00Z。我的(oracle、solr、windows)时区是 GMT+1。我预计会有 solr 索引字段值:2011-09-19T23:00:00Z。为什么不是?

配置:

我使用 ojdbc14 版本 11.2.0.2

Solr admin -> java properties -> user.timezone = Europe/Belgrade(即 GMT+1)

经过研究,我发现了可能的原因:

solr 是否使用 dbtimezone 而不是 sessiontimezone?

我找到了答案:

第一个日期包括夏令时,第二个日期不包括。如此明显。

0 投票
1 回答
1715 浏览

solr - 多核的 requestHandler 代码

我创建了两个核心,它们显示 http://{localhost}:8983/solr/ 并且我单击它们打开了管理面板。solr.xml 文件的代码如下。

我相应地创建了文件夹。但是,当我尝试将处理程序添加到 core1->config->solrconfig.xml 中的 core1 时,core0 会从核心列表中消失

requesthandler 的核心如下所示。

我什至尝试使用处理程序传递核心名称,即

但它没有用。

我是否需要更改其他内容才能运行两个内核?