我已经使用 Nutch 成功爬取了一个站点,并尝试使用 Solr 作为索引器/搜索器返回突出显示的摘要。因此,如果我查询“海洋”,那么我想仅从包含该查询词的网页文本(不是标题或 URL)中返回一个 20-30 字的摘要。
我已将 Nutch schema.xml 复制为我的 Solr schema.xml。
所以我有两个问题: 1. Nutch schema.xml 中的“content”字段是网页正文元素的字段吗?2. 如果这个字段没有被存储,有没有办法让 Solr 在搜索时检索该字段,以便突出显示它?