0

我正在使用 apache nutch 和 solr,我的要求是解析 flv 和 epub 文件的内容,我使用以下命令来解析文件

bin/nutch crawl urls -solr http://localhost:8983/solr/ 

我已将文件 url 保存在 nutch 的 urls 文件夹中。上面的命令正在工作,但是当我尝试使用 solr 和以下命令查看解析的内容时,它只是显示文件的 url。

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

请建议我....

谢谢

4

1 回答 1

0

您的第二个命令是将爬取的内容插入 SOLR 索引。

您需要在 SOLR 中运行搜索以获取爬取的内容。类似于:

http://127.0.0.1:8983/solr/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on

您可以将 schema.xml 中的“content”字段更改为 stored="true",重新抓取、重新索引并发布 SOLR 搜索的结果吗?

于 2013-05-14T19:47:05.287 回答