我将所有 XML 文件都存储在另一台服务器上,并且我已经在不同的服务器上安装和配置了 SOLR。如何将这些 XML 文件索引到 SOLR。我已经检查过 nutch,但它的主要目的是抓取 html 页面并将它们编入索引。我不需要爬行。我在其他服务器上的特定路径上有所有这些文件。我只需要在 SOLR 中索引这些 XML 文件。我已经安装并配置了 SOLR4。
如果有人做过这样的事情,请告诉我该怎么做。谢谢
我将所有 XML 文件都存储在另一台服务器上,并且我已经在不同的服务器上安装和配置了 SOLR。如何将这些 XML 文件索引到 SOLR。我已经检查过 nutch,但它的主要目的是抓取 html 页面并将它们编入索引。我不需要爬行。我在其他服务器上的特定路径上有所有这些文件。我只需要在 SOLR 中索引这些 XML 文件。我已经安装并配置了 SOLR4。
如果有人做过这样的事情,请告诉我该怎么做。谢谢
为什么不从 Solr 服务器挂载驱动器,然后执行以下操作:
java -jar post.jar "Z:\home\data\delivery\textarticles.xml"
post.jar 位于 exampledocs 文件夹中。您也可以将其用作示例应用程序并构建您自己的应用程序以从其他服务器发布这些 xml 文件
看看DataImportHandler。我认为如果设置了适当的权限,您应该能够访问网络文件。
Based on your comment to Shane Alexander's answer, you will need to use the URLDataSource option of the DataImportHandler to retrive the file via a Url. Additionally, you will need to incorporate the patch from SOLR-1490 to allow for authentication support.