0

我现在是 Solr 和 Nutch。我对 solr / nutch schema.xml 中的字段映射有疑问。我希望 solr/nutch 从我的一个网站中获取一些关键字。我知道 schema.xml 有一个字段映射部分允许我这样做。我想知道的是我应该如何将关键字字段放在 HTML 中?我是否应该只使用 HTML 隐藏字段:

<input type="hidden" name="keyword" .... /> 

或者我应该使用

<meta/> 

标签 ?

4

1 回答 1

1

已经完成了通过 XPATH 从 HTML 中提取元素的工作,因此您可以对其进行检查。

但是,使用元标记可能是更好的选择,因为 html 页面通常对于 xpath 表达式格式不正确。您可以使用带有 Nutch 的Index Metatags来提取元标记并填充 Solr 中的字段。

于 2012-11-09T11:05:25.463 回答