使用 wget 下载 html 网页时,如何将它们发布到 Solr 索引?如何修改以下示例以使其同时被索引?wget -P /var/myserver/archive http://www.somesite/products.html
我在 Solr 文档中找不到一个明显的例子,如果有任何指示,我将不胜感激。
使用 wget 下载 html 网页时,如何将它们发布到 Solr 索引?如何修改以下示例以使其同时被索引?wget -P /var/myserver/archive http://www.somesite/products.html
我在 Solr 文档中找不到一个明显的例子,如果有任何指示,我将不胜感激。
您可以查看Apache Nutch,它是一个开源网络爬虫。
您可以为 Nutch 提供一个基本页面,它将帮助您索引页面以及其中的链接。
Nutch 与 Solr 集成,因此页面将被 Solr 索引并可以搜索。
但是,如果它只是几个没有蜘蛛功能的页面,您可以下载 html 页面并通过客户端代码将其提供给 solr。
Solr 具有 HTML 过滤器,可以从该页面中提取内容并将它们作为文本进行索引。