solr - 将 wget html 页面发布到 Solr

Question

使用 wget 下载 html 网页时，如何将它们发布到 Solr 索引？如何修改以下示例以使其同时被索引？wget -P /var/myserver/archive http://www.somesite/products.html

我在 Solr 文档中找不到一个明显的例子，如果有任何指示，我将不胜感激。

score 0 · Accepted Answer

您可以查看Apache Nutch，它是一个开源网络爬虫。
您可以为 Nutch 提供一个基本页面，它将帮助您索引页面以及其中的链接。
Nutch 与 Solr 集成，因此页面将被 Solr 索引并可以搜索。

但是，如果它只是几个没有蜘蛛功能的页面，您可以下载 html 页面并通过客户端代码将其提供给 solr。
Solr 具有 HTML 过滤器，可以从该页面中提取内容并将它们作为文本进行索引。

1 回答 1