0

我想将维基百科的 xml 文件索引到 Solr 中。

但是我收到一个错误,它无法索引。Solr 具有特定的 xml 文件格式。我更改了schema.xmldata-config.xml文件以适应维基百科文件的标签。

仍然无法索引文件。我的实际意图是索引维基百科,它是一个 30 GB 的 xml 文件。

我将如何将所有维基百科文件索引到 Solr 中?

4

1 回答 1

1

There's an example section in the DataImportHandler documentation for exactly this: indexing Wikipedia.

Basically, you use the DataImportHandler and some XPath to pull the metadata you care about out of the Wikipedia XML, and put it in flat Solr field listings.

于 2012-04-03T20:27:14.163 回答