我是 Apache Nutch/Solr 系列产品的新手。我已经使用 Solr (4.3) 设置了基本的 Nutch (1.6) 并成功爬取了一个站点,并且 Solr 也为我的爬取数据编制了索引。
现在我的问题是,如果我抓取一个网络博客,比如用户可以在哪里发表评论(例如http://blogs.alliedtechnique.com/2009/04/16/setting-global-environment-variables-in-centos/),如何我能否确保 Nutch 将用户的评论和主博客视为单独的文档,所以当我搜索关键字时,它会将主博客和评论作为单独的结果返回给我,然后我也可以使用该数据进行情绪分析。
我将不胜感激这里的任何帮助。
谢谢。托尼