2

我正在尝试将 Nutch 1.6 与 Solr 4.3 集成(我将 /apache-nutch-1.6/conf/schema-solr4.xml 复制到 collection1/conf/ 并将文件重命名为 schema.xml)。我还尝试了 Nutch1.5.1 与 solr 4.3 集成。在这两种情况下,我在运行时都会收到 IOException:

bash$ nutch crawl urls -solr http://127.0.0.1:8983/solr/

作业失败。有任何想法吗?

我自己想出了一个,必须查看 solr.log 并将下面的这些字段添加到 collection1/conf 下的 schema.xml

<field name="host" type="string" stored="false" indexed="true"/> <field name="segment" type="string" stored="true" indexed="false"/> <field name="digest" type="string" stored="true" indexed="false"/> <field name="boost" type="float" stored="true" indexed="false"/> <field name="tstamp" type="date" stored="true" indexed="false"/> 它奏效了。

4

2 回答 2

0

维拉,我只使用 nutch 1.7 和 solr 4.4.0。我在 schema.xml 文件中有问题。我发现架构文件中的一些更改如下

将您的 usr/nutch 1.7/conf/schema.xml 复制到粘贴 /usr/local/solr-4.4.0/example/solr/collection1/conf/schema 并在您更改字段 type="text" 而不是 text_field 后覆盖。改成

content= 文本类将englishPorterFilterFactory 更改为SnowballPorterFilterFactory

添加后

字段名称=“版本”类型=“长”索引=“真”存储=“真”

字段名称=“文本”类型=“文本”索引=“真”存储=“假”多值=“真”

它对我来说很好用。

于 2013-09-12T07:32:09.700 回答
0

是的,您能否从日志中添加更多详细信息。可能的原因可能是您需要在 schema.xml 文件中定义唯一键。像这样

<uniqueKey>id</uniqueKey>.
于 2013-05-22T15:38:29.863 回答