我正在尝试将 Nutch 1.6 与 Solr 4.3 集成(我将 /apache-nutch-1.6/conf/schema-solr4.xml 复制到 collection1/conf/ 并将文件重命名为 schema.xml)。我还尝试了 Nutch1.5.1 与 solr 4.3 集成。在这两种情况下,我在运行时都会收到 IOException:
bash$ nutch crawl urls -solr http://127.0.0.1:8983/solr/
作业失败。有任何想法吗?
我自己想出了一个,必须查看 solr.log 并将下面的这些字段添加到 collection1/conf 下的 schema.xml
<field name="host" type="string" stored="false" indexed="true"/>
<field name="segment" type="string" stored="true" indexed="false"/>
<field name="digest" type="string" stored="true" indexed="false"/>
<field name="boost" type="float" stored="true" indexed="false"/>
<field name="tstamp" type="date" stored="true" indexed="false"/>
它奏效了。