对不起,如果这个问题可能过于笼统。如果有文档链接,我会很高兴。Google 不会帮我找到它们。
我需要了解如何从由 Nutch 抓取然后由 Solr 索引的网站中提取方面。在网站上,页面具有元标记,例如<meta name="price" content="123.45"/>
或<meta name="categories" content="category1, category2"/>
。我可以告诉 Nutch 提取这些并让 Solr 将它们视为方面吗?
在上面的示例中,我想手动指定元名称“类别”将被视为一个方面,但内容应动态用作类别。
是否有意义?是否可以使用 Nutch 和 Solr,或者我应该重新考虑使用它的方式?