0

我已经使用 Nutch 成功爬取了一个站点,并尝试使用 Solr 作为索引器/搜索器返回突出显示的摘要。因此,如果我查询“海洋”,那么我想仅从包含该查询词的网页文本(不是标题或 URL)中返回一个 20-30 字的摘要。

我已将 Nutch schema.xml 复制为我的 Solr schema.xml。

所以我有两个问题: 1. Nutch schema.xml 中的“content”字段是网页正文元素的字段吗?2. 如果这个字段没有被存储,有没有办法让 Solr 在搜索时检索该字段,以便突出显示它?

4

1 回答 1

1
  1. 我很长时间没有使用 Nutch,但我认为假设“内容”是您想要突出显示的领域是相当安全的。

  2. 您需要存储该字段才能使用突出显示,如果您想使用FastVectorHighlighting,您需要为该字段启用以下属性:termVectors、termPositions 和 termOffsets。

如果您使用 FVH,您还可以在 Solr 3.5 及更高版本中使用边界扫描器。

于 2012-04-04T08:54:23.107 回答