在我之前的问题中,我得到的答案是我可以在不使用任何数据库的情况下将小型索引(少数站点)数据存储在 solr 中(是否可以在 solr 中存储数据?)。我想知道,是否可以在不使用任何数据库的情况下将完整的 html 页面源代码存储在 solr 中?
问问题
950 次
1 回答
4
如果您想抓取网站并将其编入索引,Nutch with Solr 是一种解决方案。
Nutch 与 Solr 教程将帮助您入门。
但是,Nutch 不会使用 html 标签维护原始 Solr 代码。
您需要通过下载 html 页面来开发自定义解决方案,然后可以使用Solr 提取请求处理程序向 Solr 提供 HTML 文件并从 html 文件中提取内容。例如在链接
Solr 使用Apache Tika从上传的 html 文件中提取内容
如果您将数据作为 html 文本提供,您还可以检查HTMLStripCharFilterFactory 。
于 2013-02-12T10:47:13.210 回答