java - 是否可以将完整的 html 页面源代码存储在 solr 中？

Question

在我之前的问题中，我得到的答案是我可以在不使用任何数据库的情况下将小型索引（少数站点）数据存储在 solr 中（是否可以在 solr 中存储数据？）。我想知道，是否可以在不使用任何数据库的情况下将完整的 html 页面源代码存储在 solr 中？

score 4 · Accepted Answer

如果您想抓取网站并将其编入索引，Nutch with Solr 是一种解决方案。
Nutch 与 Solr 教程将帮助您入门。
但是，Nutch 不会使用 html 标签维护原始 Solr 代码。

您需要通过下载 html 页面来开发自定义解决方案，然后可以使用Solr 提取请求处理程序向 Solr 提供 HTML 文件并从 html 文件中提取内容。例如在链接

如果您将数据作为 html 文本提供，您还可以检查HTMLStripCharFilterFactory 。

1 回答 1