linux - 无法使用 nutch 解析 flv 和 epub 文件内容

Question

我正在使用 apache nutch 和 solr，我的要求是解析 flv 和 epub 文件的内容，我使用以下命令来解析文件

bin/nutch crawl urls -solr http://localhost:8983/solr/

我已将文件 url 保存在 nutch 的 urls 文件夹中。上面的命令正在工作，但是当我尝试使用 solr 和以下命令查看解析的内容时，它只是显示文件的 url。

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

请建议我....

谢谢

score 0 · Accepted Answer

您的第二个命令是将爬取的内容插入 SOLR 索引。

您需要在 SOLR 中运行搜索以获取爬取的内容。类似于：

http://127.0.0.1:8983/solr/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on

您可以将 schema.xml 中的“content”字段更改为 stored="true"，重新抓取、重新索引并发布 SOLR 搜索的结果吗？

1 回答 1