apache - 使用 Apache Nutch 和 Solr 进行基于模板的索引/提取

Question

我是 Apache Nutch/Solr 系列产品的新手。我已经使用 Solr (4.3) 设置了基本的 Nutch (1.6) 并成功爬取了一个站点，并且 Solr 也为我的爬取数据编制了索引。

现在我的问题是，如果我抓取一个网络博客，比如用户可以在哪里发表评论（例如http://blogs.alliedtechnique.com/2009/04/16/setting-global-environment-variables-in-centos/），如何我能否确保 Nutch 将用户的评论和主博客视为单独的文档，所以当我搜索关键字时，它会将主博客和评论作为单独的结果返回给我，然后我也可以使用该数据进行情绪分析。

我将不胜感激这里的任何帮助。

谢谢。托尼

score 0 · Accepted Answer

您可以使用 xpath 过滤器插件将抓取的内容分成两个不同的字段。 http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/

class="post" 中的内容将转到字段 A，class="commentlist" 中的内容将转到字段 B。

在您的搜索页面逻辑中，您在字段 A 上查询 Solr，因此您的搜索结果仅来自您的博客文章，而不是评论。

评论数据仍然保存在文档中，但不可搜索。

apache - 使用 Apache Nutch 和 Solr 进行基于模板的索引/提取

1 回答 1

Related

Reference