1

在我之前的问题中,我得到的答案是我可以在不使用任何数据库的情况下将小型索引(少数站点)数据存储在 solr 中(是否可以在 solr 中存储数据?)。我想知道,是否可以在不使用任何数据库的情况下将完整的 html 页面源代码存储在 solr 中?

4

1 回答 1

4

如果您想抓取网站并将其编入索引,Nutch with Solr 是一种解决方案。
Nutch 与 Solr 教程将帮助您入门。
但是,Nutch 不会使用 html 标签维护原始 Solr 代码。

您需要通过下载 html 页面来开发自定义解决方案,然后可以使用Solr 提取请求处理程序向 Solr 提供 HTML 文件并从 html 文件中提取内容。例如在链接

Solr 使用Apache Tika上传的 html 文件中提取内容

如果您将数据作为 html 文本提供,您还可以检查HTMLStripCharFilterFactory 。

于 2013-02-12T10:47:13.210 回答