每当 Solr 被索引到集合(使用 configSet sample_techproducts_configs)并使用 URL 时,通过以下命令:
bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3
创建的索引确实有一个字段content复制到text字段。该字段确实具有使用嵌入式 tika 解析解析的网页内容的值。
但是,当这些网页包含任何<script>或<style>标签时,它们<body>会被删除,但这些相应标签内的脚本或样式仍保留为网页的内容,并在响应 Solr 查询时显示。
如何删除这些不需要的内容?