0

对不起,如果这个问题可能过于笼统。如果有文档链接,我会很高兴。Google 不会帮我找到它们。

我需要了解如何从由 Nutch 抓取然后由 Solr 索引的网站中提取方面。在网站上,页面具有元标记,例如<meta name="price" content="123.45"/><meta name="categories" content="category1, category2"/>。我可以告诉 Nutch 提取这些并让 Solr 将它们视为方面吗?

在上面的示例中,我想手动指定元名称“类别”将被视为一个方面,但内容应动态用作类别。

是否有意义?是否可以使用 Nutch 和 Solr,或者我应该重新考虑使用它的方式?

4

2 回答 2

0

我没有使用过 Nutch(我使用 Heritrix),但归根结底,Nutch 需要提取“元”标签值并在 Solr 中对它们进行索引(例如使用 SolrJ),具有不同的 solr 字段“价格”, “类别”等

然后你做

  • http://localhost:8080/solr/myrep/select?q=mobile&facet=true&facet.limit=10&facet.field=categories

    获取每个类别的方面。这是有关方面的页面:

  • http://wiki.apache.org/solr/SolrFacetingOverview

  • 于 2011-08-18T16:49:00.637 回答
    0

    一种选择是将 nutch 与元数据插件一起使用

    尽管它是作为示例给出的,但它在分发中包含很多。假设您知道使用 nutch 配置和爬取数据的其他过程 在索引之前,您需要配置 nutch 以使用这样的元数据插件。编辑 conf/nutch-site.xml

          <property>
             <name>plugin.includes</name>
             <value>urlmeta|(rest of the plugins)</value>
         </property>
    

    需要索引的元数据标签,如价格可以作为另一个属性提供

        <property>
           <name>urlmeta.tags</name>
             <value>price</value>
        </property>$
    

    现在,您可以运行 nutch crawl 命令。使用 solr 进行爬网和索引后,您应该会在索引中看到一个字段 price。可以通过在查询中添加 facet.field 来使用构面搜索。

    以下是一些感兴趣的链接。

    1. 使用 Solr 索引 nutch 数据链接:链接
    2. Solr 分面查询链接的帮助:链接
    于 2011-08-18T17:21:56.513 回答