0

我是 Apache Nutch/Solr 系列产品的新手。我已经使用 Solr (4.3) 设置了基本的 Nutch (1.6) 并成功爬取了一个站点,并且 Solr 也为我的爬取数据编制了索引。

现在我的问题是,如果我抓取一个网络博客,比如用户可以在哪里发表评论(例如http://blogs.alliedtechnique.com/2009/04/16/setting-global-environment-variables-in-centos/),如何我能否确保 Nutch 将用户的评论和主博客视为单独的文档,所以当我搜索关键字时,它会将主博客和评论作为单独的结果返回给我,然后我也可以使用该数据进行情绪分析。

我将不胜感激这里的任何帮助。

谢谢。托尼

4

1 回答 1

0

您可以使用 xpath 过滤器插件将抓取的内容分成两个不同的字段。 http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/

class="post" 中的内容将转到字段 A,class="commentlist" 中的内容将转到字段 B。

在您的搜索页面逻辑中,您在字段 A 上查询 Solr,因此您的搜索结果仅来自您的博客文章,而不是评论。

评论数据仍然保存在文档中,但不可搜索。

于 2013-06-16T16:53:14.757 回答