我现在是 Solr 和 Nutch。我对 solr / nutch schema.xml 中的字段映射有疑问。我希望 solr/nutch 从我的一个网站中获取一些关键字。我知道 schema.xml 有一个字段映射部分允许我这样做。我想知道的是我应该如何将关键字字段放在 HTML 中?我是否应该只使用 HTML 隐藏字段:
<input type="hidden" name="keyword" .... />
或者我应该使用
<meta/>
标签 ?
已经完成了通过 XPATH 从 HTML 中提取元素的工作,因此您可以对其进行检查。
但是,使用元标记可能是更好的选择,因为 html 页面通常对于 xpath 表达式格式不正确。您可以使用带有 Nutch 的Index Metatags来提取元标记并填充 Solr 中的字段。