0

我想要一种机制来缓存/索引网站的 html 页面。因此,如果再次请求该页面,我可以简单地从缓存或索引中获取该页面并发送它。Solr可以吗?因为 Solr 似乎总是存储 html 的显示(文本)部分,而不是整个 HTML Dom。有没有其他开源技术可以帮助我以快速的性能做到这一点?

4

1 回答 1

1

这个问题有很多遗漏的细节,但对你关于 Solr 的问题的回答是肯定的,Solr 可以很好地存储原始 HTML。通常,您使用带有 stored="true" 的字段来检索原始 HTML,并使用 indexed="true" 以及HTML 过滤器来仅保留文本可搜索。

于 2011-11-25T14:06:02.660 回答